Cristie
News

AWS-Ausfall im Jahr 2025: Seien Sie widerstandsfähig mit der GREEN-S3-Cloud von Cristie Data.

Wie man nach dem großen AWS-Ausfall eine widerstandsfähige S3-Anwendungsdatenspeicherumgebung entwirft.

Den AWS-Ausfall vom 20. Oktober 2025 verstehen

Am Montag, dem 20. Oktober 2025, erlitt Amazon Web Services (AWS) einen massiven, weltweiten Ausfall, der tausende Anwendungen und Dienste beeinträchtigte.

Was ist passiert?

Der Vorfall betraf vor allem die Region US-EAST-1 (Nord-Virginia), in der hohe Fehlerraten und Latenzen in mehreren AWS-Services auftraten. Die Ursache war laut Analysen ein DNS-Auflösungsfehler in internen AWS-Diensten (u. a. DynamoDB und API-Routing), der eine Kettenreaktion auslöste und viele abhängige Services beeinträchtigte. Der Ausfall begann gegen 08:11 Uhr MEZ und dauerte mehrere Stunden; Nachwirkungen waren noch bis in den Nachmittag spürbar.

Warum war die Auswirkung so groß?

Da AWS einen sehr hohen Marktanteil im Cloud-Infrastruktur-Sektor hat und viele Anwendungen nur in einer Region oder Availability Zone betrieben werden, führte der Ausfall einer Region zu globalen Störungen. Experten betonten, der Vorfall zeige, wie abhängig moderne IT-Infrastrukturen von einzelnen Cloud-Anbietern seien.

Geschäftliche Auswirkungen

Unter anderem betroffen waren große Plattformen wie Snapchat, Fortnite, Streaming-Anbieter, Smart-Home-Dienste (z. B. Ring) sowie zahlreiche Unternehmens- und Finanzanwendungen. Der Ausfall machte deutlich: Ein Fehler in der Infrastruktur eines Cloud-Anbieters kann weltweite Auswirkungen haben.

Fazit

Wer seine Anwendungen oder Daten in der Cloud betreibt, muss mit Ausfällen rechnen. Resilienz muss von Anfang an eingeplant werden – nicht erst, wenn der Ernstfall eintritt.

 

Warum der Ausfall für die Anwendungsresilienz so wichtig ist

Der AWS-Ausfall vom 20. Oktober 2025 ist ein Weckruf für jede Organisation, die auf Cloud-Infrastrukturen setzt.

Ein einziger Fehlerpunkt

Wenn eine Organisation auf einem öffentlichen Cloud-Anbieter aufbaut und die meisten Workloads in einer einzigen Region oder von einer einzigen Dienstabhängigkeit (zum Beispiel „gesamter Objektspeicher in AWS EU-CENTRAL-1 (Frankfurt)“) platziert, wird ein Ausfall dieser Region oder dieses Dienstes zu einer Bedrohung für die Geschäftskontinuität. Der Ausfall zeigt, dass das Backbone des Internets weniger widerstandsfähig ist, als viele annehmen..

Kaskadierende Fehler

Ein scheinbar kleiner Fehler (wie DNS-Probleme bei DynamoDB) kann weitreichende Kettenreaktionen auslösen, weil viele Dienste voneinander abhängen.

Wichtige Erkenntnisse

  • Cloud-Architekturen müssen für Ausfälle entworfen werden – nicht nur für den Normalbetrieb.
  • Resilienz bedeutet mehr als Hochverfügbarkeit innerhalb einer Region.
  • Backups und Wiederherstellung müssen regelmäßig getestet und automatisiert werden.

 

Grundprinzipien resilienter Cloud-Architekturen

Multi-Region / Multi-Zone-Design

Kritische Workloads sollten über mehrere Regionen oder Zonen verteilt sein. Fällt eine Region aus, läuft der Dienst in einer anderen weiter.

Multi-Cloud- oder Hybrid-Strategie

Um Anbieterabhängigkeit zu vermeiden, kann eine hybride Architektur (Cloud + On-Premises) oder Multi-Cloud-Umgebung sinnvoll sein.

Degradation / Teilfunktionsmodus

Anwendungen sollten so gestaltet sein, dass sie bei Ausfällen eingeschränkt weiterarbeiten können – z. B. im Nur-Lese-Modus oder mit Warteschlangen.

Datenhaltbarkeit & Unveränderlichkeit

Backups und Archive müssen unveränderlich (immutable) und in separaten Fehlerdomänen gespeichert sein.

Automatisches Failover & Recovery

Automatisierte Mechanismen erkennen Störungen und starten automatisch Wiederherstellungsprozesse – schneller als jedes manuelle Eingreifen.

 

Architekturmuster für höhere Resilienz

Aktiv–Aktiv vs. Aktiv–Passiv

  • Aktiv–Aktiv: Mehrere Regionen/Clouds sind gleichzeitig aktiv – bei Ausfall übernimmt automatisch die andere.
  • Aktiv–Passiv: Eine Region ist aktiv, die andere im Standby – einfacher, aber mit potenzieller Umschaltzeit.

 

Failover- und Fallback-Mechanismen

Definieren Sie klare Prozesse: Ausfall erkennen → Traffic umleiten → Daten synchronisieren → Betrieb wieder aufnehmen.

Event-Driven Decoupling

Durch asynchrone Kommunikation (Message Queues, Event Streams) können Teilsysteme unabhängig voneinander weiterarbeiten.

Georedundante Datenreplikation

Daten regelmäßig in andere Regionen oder auf andere Anbieter replizieren.

 

Resiliente Speicher- und Backup-Strategien

Objektspeicher-Resilienz

  • Multi-Region-Buckets oder Cross-Region-Replikation verwenden.
  • Gesundheit und Latenz der Speicherendpunkte überwachen.

 

Unveränderliche Backups & Archive

Backups sollten WORM-fähig (Write Once, Read Many) und gegen Ransomware geschützt sein.

Langzeitarchivierung & Offline-Kopien

Offline-Medien wie Tape bieten physische Trennung und höchste Sicherheit – ideal für den Ernstfall.

 

Wie Cristie Data mit der GREEN-S3 Cloud Resilienz stärkt

Was ist die GREEN-S3 Cloud?

GREEN-S3 Cloud bietet eine „kohlenstoffneutrale, anwendungsoptimierte S3-Cloud“, die auf windbetriebener Infrastruktur gehostet wird. Die GREEN-S3 Cloud ist für Backup, Recovery und Archivierung gedacht, wobei Optionen wie S3 direkt auf Band (S3 direct to tape) zur Verfügung stehen.

Vorteile gegenüber Public Cloud

  • Unabhängige Fehlerdomäne: Bleibt AWS oder Azure stehen, sind Daten weiterhin zugänglich.
  • Unveränderliche Archive für maximale Datensicherheit.
  • Hybrid-Integration: Öffentliche Cloud für Betrieb, GREEN-S3 Cloud für Backup.
  • Nachhaltigkeit: Klimaneutrale Infrastruktur reduziert CO₂-Fußabdruck.

 

Integration der GREEN-S3 Cloud in bestehende Architekturen

Beispielarchitektur

  1. Produktion läuft auf AWS oder Azure.
  2. Backups und Snapshots werden in die GREEN-S3 Cloud repliziert.
  3. Archivkopien wandern automatisch per S3-to-Tape-Gateway auf Band.
  4. Im Störungsfall kann das Unternehmen auf die Cristie-Infrastruktur zurückgreifen.

 

Datenfluss

  • Echtzeit- oder Batch-Replikation.
  • Monitoring von Latenz und Integrität.
  • Regelmäßige Überprüfung der Wiederherstellbarkeit.

 

Wirtschaftlichkeit

Die GREEN-S3 Cloud nutzt ein Pay-as-you-go-Modell – Sie zahlen nur für die tatsächlich genutzte Kapazität.

 

Anwendungsebene: Was Kunden tun sollten

  • Design for Failure – planen Sie Ausfälle fest ein.
  • Überwachen Sie Latenzen, Fehlerraten und Systemgesundheit.
  • Implementieren Sie Graceful Degradation, statt komplette Ausfälle zu riskieren.
  • Testen Sie regelmäßig automatisierte Failover-Prozesse.
  • Sorgen Sie dafür, dass Anwendungen auf Backups (z. B. GREEN-S3 Cloud) zugreifen können.

 

Datensicherungsebene: Was Kunden tun sollten

  • Definieren Sie Backup-Intervalle und Aufbewahrungsfristen.
  • Erstellen Sie unveränderliche Kopien außerhalb der Primär-Cloud.
  • Führen Sie regelmäßige Recovery-Tests durch.
  • Verwenden Sie Cristie-Lösungen für automatisierte Wiederherstellungstests.

 

Betriebliche Resilienz

  • Chaos Engineering zur Erprobung des Ernstfalls.
  • Incident Response-Pläne für Cloud-Ausfälle.
  • Regelmäßige Kommunikation und Schulung der Teams.
  • Integration der GREEN-S3 Cloud in den Business Continuity Plan.

 

Multi-Cloud- und Unabhängigkeitsstrategien

  • Prüfen Sie, welche Workloads multi-cloud-fähig sind.
  • Vermeiden Sie Vendor Lock-In durch offene Standards.
  • Nutzen Sie GREEN-S3 Cloud als unabhängige Datendomäne.

 

Checkliste für resiliente Cloud-Architektur

Prüffrage

Erledigt

Werden kritische Workloads über mehrere Regionen betrieben?

Sind Backups außerhalb der Primär-Cloud gespeichert?

Sind Daten immutable (unveränderlich)?

Existieren getestete DR-Runbooks?

Wird die Wiederherstellbarkeit regelmäßig überprüft?

Gibt es automatisiertes Failover?

Wurden Abhängigkeiten zu Anbietern dokumentiert?

 

Beispielszenarien: Was hätte passieren können – und wie man es vermeidet

Hier sind einige illustrative Szenarien und wie die Architektur mit Cristie Data hilft, große Auswirkungen zu verhindern.

Szenario 1: Ausfall einer AWS-Region

Stellen Sie sich vor, Ihre Produktion läuft vollständig in AWS EU-CENTRAL-1, und am 20. Oktober 2025 legt ein DNS-/interner Fehler die Region lahm. Ohne alternative Region oder Anbieter ist Ihre Anwendung offline. Mit einer Architektur, die Daten in die GREEN-S3 Cloud repliziert und Multi-Region-Deployments (oder Multi-Cloud) nutzt, können Sie auf eine andere Region umschalten oder vorübergehend in einen Nur-Lese-Betrieb wechseln, bis alles wiederhergestellt ist.

Szenario 2: Objektspeicher (S3) erreichbar, aber interne APIs fallen aus

Der AWS-Ausfall betraf nicht nur Compute, sondern auch interne Dienste (z. B. DynamoDB/DNS). Dadurch kam es bei einigen abhängigen Services zu Störungen, selbst wenn der Speicherdienst langsam, aber noch erreichbar war. Wenn Ihre Architektur ausschließlich das S3 eines einzigen Anbieters nutzt, Sie jedoch asynchron in die GREEN-S3 Cloud replizieren, können Sie Daten in eine unabhängige Domäne wiederherstellen und Services schneller zurückbringen.

Szenario 3: Datenkorruption oder Ransomware zeitgleich mit Cloud-Ausfall

Angenommen, Ihre primäre Cloud erleidet einen Anbieterfehler und gleichzeitig stellen Sie Datenkorruption in Ihrem Speicher fest. Wenn Sie unveränderliche Archive in der GREEN-S3 Cloud (mit S3-to-Tape) vorhalten, verfügen Sie über eine unberührte Kopie, die eine Wiederherstellung trotz gleichzeitigen Cloud-Ausfalls ermöglicht.

 

Fazit

Der AWS-Ausfall hat gezeigt: Selbst große Cloud-Provider sind nicht unfehlbar.
Wer echte Business-Kontinuität will, muss Redundanz, Automatisierung und unabhängige Backups einplanen.

Mit Lösungen wie der GREEN-S3 Cloud, S3-to-Tape-Gateways und Recovery-Tests bietet Cristie Data ein starkes Fundament für resiliente Cloud-Architekturen – technisch robust, ökologisch nachhaltig und zukunftssicher.

 

Häufig gestellte Fragen (FAQ)

F1. Was war die Hauptursache des AWS-Ausfalls am 20. Oktober 2025?
Der Ausfall wurde durch einen DNS-/internen API-Fehler in der Region US-EAST-1 ausgelöst, der unter anderem Dienste wie DynamoDB beeinträchtigte und eine Kaskade von Störungen verursachte.

F2. Hilft die Nutzung mehrerer AWS-Regionen allein?
Mehrere Regionen verbessern die Verfügbarkeit, ersetzen aber keine unabhängige Datendomäne. Für echte Resilienz sollten zusätzlich Off-Cloud-Backups und ein externer Speicher wie die GREEN-S3 Cloud genutzt werden, um Anbieterausfälle abzufedern.

F3. Was bringt die GREEN-S3 Cloud von Cristie Data konkret?
Die GREEN-S3 Cloud ist eine S3-kompatible, CO₂-neutrale Speicherplattform in einer unabhängigen Fehlerdomäne. Sie ermöglicht unveränderliche Backups, Archivierung, S3-to-Tape für Langzeitaufbewahrung sowie eine schnelle Wiederherstellung bei Ausfällen des Primäranbieters.

F4. Wie oft sollten wir unsere Disaster-Recovery-Prozesse testen?
Mindestens einmal jährlich als Vollübung sowie quartalsweise (oder monatlich) für kritische Teilbereiche. Tests sollten Failover, die Wiederherstellung aus der GREEN-S3 Cloud und das Erreichen der definierten RTO/RPO nachweisen.

F5. Ist eine Multi-Cloud-Strategie nicht zu teuer und komplex?
Multi-Cloud erhöht Aufwand und Kosten, reduziert jedoch das Risiko teurer Ausfälle deutlich. Der potenzielle Schaden durch Downtime ist meist höher. Ein pragmischer Ansatz kombiniert Multi-Region mit unabhängigen Backups/Archiven (z. B. GREEN-S3 Cloud) im Pay-as-you-go-Modell.

F6. Wie integriere ich Cristie Data in meine bestehende Architektur?
Über S3-Replikation für Backups/Snapshots, über vorhandene Backup-Software-Integrationen oder über ein S3-to-Tape-Gateway für unveränderliche Langzeitarchive. Im Störungsfall dient die GREEN-S3 Cloud als unabhängige Wiederherstellungsquelle.

Weiterführende Links

Metadata Management Webinar 18.11.2025 - Registrierung

Unser Angebot richtet sich ausschließlich an Geschäftskunden. Bitte verwenden Sie eine Unternehmens-E-Mail-Adresse für Ihre Anfrage (z. B. keine @gmail.com-, @gmx.de- oder @web.de-Adressen).

Metadata Management Webinar 17.09.2025 - Registrierung

Unser Angebot richtet sich ausschließlich an Geschäftskunden. Bitte verwenden Sie eine Unternehmens-E-Mail-Adresse für Ihre Anfrage (z. B. keine @gmail.com-, @gmx.de- oder @web.de-Adressen).

CMT25 - Registrierung
Cristie Mopped Tour 2025

Unser Angebot richtet sich ausschließlich an Geschäftskunden. Bitte verwenden Sie eine Unternehmens-E-Mail-Adresse für Ihre Anfrage (z. B. keine @gmail.com-, @gmx.de- oder @web.de-Adressen).

Ich interessiere mich für die Notfallunterstützung von Cristie & Arctic Wolf!

Ihr it-sa 2024 Ticket
Fordern Sie kostenlos Tickets an. Gern auch mehrere über das Kommentarfeld.






Teilnahme nach Verfügbarkeit.

CMT24 - Registrierung
Cristie Mopped Tour 2024






Teilnahme nach Verfügbarkeit.

Schauen Sie sich das DORA Video an

Schauen Sie sich das Spectra Tape Video an

Schauen Sie sich das NIS2 Directive Video an

Save the Data - Event Registrierung






Teilnahme nach Verfügbarkeit.

Arctic Wolf - Security Breakfast





Teilnahme nach Verfügbarkeit.

Arctic Wolf - Security Breakfast Event





Participation subject to availability.

eBook: Transform Your Business with Mature Data Management

Understanding LTO-9 Tape Technology – Whitepaper

Understanding LTO-9 Tape Technology – Whitepaper

Kontaktinfo

Nordring 53-55, 63843 Niedernberg, Deutschland

Unser Angebot richtet sich ausschließlich an Geschäftskunden. Bitte verwenden Sie eine Unternehmens-E-Mail-Adresse für Ihre Anfrage (z. B. keine @gmail.com-, @gmx.de- oder @web.de-Adressen).

Monatliches Angebot für Cloud-Schutz anfordern

Wählen Sie mehrere aus, indem Sie beim Auswählen die Taste strg oder cmd drücken.

*Sie können die Anzahl der zugewiesenen Lizenzen in Microsoft 365 ermitteln, indem Sie zur Seite Microsoft 365 Admin center > Billing > Licenses navigieren.

** Die folgenden Abonnements werden von Cristie Cloud Backup für Google Workspace nicht berechnet:
Google Voice Starter (SKU ID: 1010330003)
Google Voice Standard (SKU ID: 1010330004)
Google Voice Premier (SKU ID: 1010330002)

Auf dem Weg zur intelligenten Welt – Whitepaper

Da neue Technologien wie 5G, IoT, Cloud Computing und Big Data in der digitalen Transformation eingesetzt werden, bewegt sich die IT-Architektur von Unternehmen in Richtung eines hybriden Frameworks aus „traditioneller IT + privater Cloud + öffentlicher Cloud + Edge“.

Striding Towards the Intelligent World – White Paper

As new technologies, such as 5G, IoT, cloud computing, and big data, are being applied in digital transformation, enterprise IT architecture is moving towards a hybrid framework of „traditional IT + private cloud + public cloud + edge“. This report provides an in-depth outlook on the development of the data storage industry.

Zero Trust Data Security for Dummies