27.10.2025

So entwerfen Sie resiliente Anwendungen nach dem großen AWS-Ausfall am 20. Oktober 2025

Wie man nach dem großen AWS-Ausfall eine widerstandsfähige S3-Anwendungsdatenspeicherumgebung entwirft. Den AWS-Ausfall vom 20. Oktober 2025 verstehen Am Montag, dem 20. Oktober 2025, erlitt Amazon Web Services (AWS) einen massiven, weltweiten Ausfall, der tausende Anwendungen und Dienste beeinträchtigte. Was ist passiert? Der Vorfall betraf vor allem die Region US-EAST-1 (Nord-Virginia), in der hohe Fehlerraten und Latenzen in mehreren AWS-Services auftraten. Die Ursache war laut Analysen ein DNS-Auflösungsfehler in internen AWS-Diensten (u. a. DynamoDB und API-Routing), der eine Kettenreaktion auslöste und viele abhängige Services beeinträchtigte. Der Ausfall begann gegen 08:11 Uhr MEZ und dauerte mehrere Stunden; Nachwirkungen waren noch bis in den Nachmittag spürbar. Warum war die Auswirkung so groß? Da AWS einen sehr hohen Marktanteil im Cloud-Infrastruktur-Sektor hat und viele Anwendungen nur in einer Region oder Availability Zone betrieben werden, führte der Ausfall einer Region zu globalen Störungen. Experten betonten, der Vorfall zeige, wie abhängig moderne IT-Infrastrukturen von einzelnen Cloud-Anbietern seien. Geschäftliche Auswirkungen Unter anderem betroffen waren große Plattformen wie Snapchat, Fortnite, Streaming-Anbieter, Smart-Home-Dienste (z. B. Ring) sowie zahlreiche Unternehmens- und Finanzanwendungen. Der Ausfall machte deutlich: Ein Fehler in der Infrastruktur eines Cloud-Anbieters kann weltweite Auswirkungen haben. Fazit Wer seine Anwendungen oder Daten in der Cloud betreibt, muss mit Ausfällen rechnen. Resilienz muss von Anfang an eingeplant werden – nicht erst, wenn der Ernstfall eintritt. Warum der Ausfall für die Anwendungsresilienz so wichtig ist Der AWS-Ausfall vom 20. Oktober 2025 ist ein Weckruf für jede Organisation, die auf Cloud-Infrastrukturen setzt. Ein einziger Fehlerpunkt Wenn eine Organisation auf einem öffentlichen Cloud-Anbieter aufbaut und die meisten Workloads in einer einzigen Region oder von einer einzigen Dienstabhängigkeit (zum Beispiel „gesamter Objektspeicher in AWS EU-CENTRAL-1 (Frankfurt)“) platziert, wird ein Ausfall dieser Region oder dieses Dienstes zu einer Bedrohung für die Geschäftskontinuität. Der Ausfall zeigt, dass das Backbone des Internets weniger widerstandsfähig ist, als viele annehmen.. Kaskadierende Fehler Ein scheinbar kleiner Fehler (wie DNS-Probleme bei DynamoDB) kann weitreichende Kettenreaktionen auslösen, weil viele Dienste voneinander abhängen. Wichtige Erkenntnisse Cloud-Architekturen müssen für Ausfälle entworfen werden – nicht nur für den Normalbetrieb. Resilienz bedeutet mehr als Hochverfügbarkeit innerhalb einer Region. Backups und Wiederherstellung müssen regelmäßig getestet und automatisiert werden. Grundprinzipien resilienter Cloud-Architekturen Multi-Region / Multi-Zone-Design Kritische Workloads sollten über mehrere Regionen oder Zonen verteilt sein. Fällt eine Region aus, läuft der Dienst in einer anderen weiter. Multi-Cloud- oder Hybrid-Strategie Um Anbieterabhängigkeit zu vermeiden, kann eine hybride Architektur (Cloud + On-Premises) oder Multi-Cloud-Umgebung sinnvoll sein. Degradation / Teilfunktionsmodus Anwendungen sollten so gestaltet sein, dass sie bei Ausfällen eingeschränkt weiterarbeiten können – z. B. im Nur-Lese-Modus oder mit Warteschlangen. Datenhaltbarkeit & Unveränderlichkeit Backups und Archive müssen unveränderlich (immutable) und in separaten Fehlerdomänen gespeichert sein. Automatisches Failover & Recovery Automatisierte Mechanismen erkennen Störungen und starten automatisch Wiederherstellungsprozesse – schneller als jedes manuelle Eingreifen. Architekturmuster für höhere Resilienz Aktiv–Aktiv vs. Aktiv–Passiv Aktiv–Aktiv: Mehrere Regionen/Clouds sind gleichzeitig aktiv – bei Ausfall übernimmt automatisch die andere. Aktiv–Passiv: Eine Region ist aktiv, die andere im Standby – einfacher, aber mit potenzieller Umschaltzeit. Failover- und Fallback-Mechanismen Definieren Sie klare Prozesse: Ausfall erkennen → Traffic umleiten → Daten synchronisieren → Betrieb wieder aufnehmen. Event-Driven Decoupling Durch asynchrone Kommunikation (Message Queues, Event Streams) können Teilsysteme unabhängig voneinander weiterarbeiten. Georedundante Datenreplikation Daten regelmäßig in andere Regionen oder auf andere Anbieter replizieren. Resiliente Speicher- und Backup-Strategien Objektspeicher-Resilienz Multi-Region-Buckets oder Cross-Region-Replikation verwenden. Gesundheit und Latenz der Speicherendpunkte überwachen. Unveränderliche Backups & Archive Backups sollten WORM-fähig (Write Once, Read Many) und gegen Ransomware geschützt sein. Langzeitarchivierung & Offline-Kopien Offline-Medien wie Tape bieten physische Trennung und höchste Sicherheit – ideal für den Ernstfall. Wie Cristie Data mit der GREEN-S3 Cloud Resilienz stärkt Was ist die GREEN-S3 Cloud? GREEN-S3 Cloud bietet eine „kohlenstoffneutrale, anwendungsoptimierte S3-Cloud“, die auf windbetriebener Infrastruktur gehostet wird. Die GREEN-S3 Cloud ist für Backup, Recovery und Archivierung gedacht, wobei Optionen wie S3 direkt auf Band (S3 direct to tape) zur Verfügung stehen. Vorteile gegenüber Public Cloud Unabhängige Fehlerdomäne: Bleibt AWS oder Azure stehen, sind Daten weiterhin zugänglich. Unveränderliche Archive für maximale Datensicherheit. Hybrid-Integration: Öffentliche Cloud für Betrieb, GREEN-S3 Cloud für Backup. Nachhaltigkeit: Klimaneutrale Infrastruktur reduziert CO₂-Fußabdruck. Integration der GREEN-S3 Cloud in bestehende Architekturen Beispielarchitektur Produktion läuft auf AWS oder Azure. Backups und Snapshots werden in die GREEN-S3 Cloud repliziert. Archivkopien wandern automatisch per S3-to-Tape-Gateway auf Band. Im Störungsfall kann das Unternehmen auf die Cristie-Infrastruktur zurückgreifen. Datenfluss Echtzeit- oder Batch-Replikation. Monitoring von Latenz und Integrität. Regelmäßige Überprüfung der Wiederherstellbarkeit. Wirtschaftlichkeit Die GREEN-S3 Cloud nutzt ein Pay-as-you-go-Modell – Sie zahlen nur für die tatsächlich genutzte Kapazität. Anwendungsebene: Was Kunden tun sollten Design for Failure – planen Sie Ausfälle fest ein. Überwachen Sie Latenzen, Fehlerraten und Systemgesundheit. Implementieren Sie Graceful Degradation, statt komplette Ausfälle zu riskieren. Testen Sie regelmäßig automatisierte Failover-Prozesse. Sorgen Sie dafür, dass Anwendungen auf Backups (z. B. GREEN-S3 Cloud) zugreifen können. Datensicherungsebene: Was Kunden tun sollten Definieren Sie Backup-Intervalle und Aufbewahrungsfristen. Erstellen Sie unveränderliche Kopien außerhalb der Primär-Cloud. Führen Sie regelmäßige Recovery-Tests durch. Verwenden Sie Cristie-Lösungen für automatisierte Wiederherstellungstests. Betriebliche Resilienz Chaos Engineering zur Erprobung des Ernstfalls. Incident Response-Pläne für Cloud-Ausfälle. Regelmäßige Kommunikation und Schulung der Teams. Integration der GREEN-S3 Cloud in den Business Continuity Plan. Multi-Cloud- und Unabhängigkeitsstrategien Prüfen Sie, welche Workloads multi-cloud-fähig sind. Vermeiden Sie Vendor Lock-In durch offene Standards. Nutzen Sie GREEN-S3 Cloud als unabhängige Datendomäne. Checkliste für resiliente Cloud-Architektur Prüffrage Erledigt Werden kritische Workloads über mehrere Regionen betrieben? □ Sind Backups außerhalb der Primär-Cloud gespeichert? □ Sind Daten immutable (unveränderlich)? □ Existieren getestete DR-Runbooks? □ Wird die Wiederherstellbarkeit regelmäßig überprüft? □ Gibt es automatisiertes Failover? □ Wurden Abhängigkeiten zu Anbietern dokumentiert? □ Beispielszenarien: Was hätte passieren können – und wie man es vermeidet Hier sind einige illustrative Szenarien und wie die Architektur mit Cristie Data hilft, große Auswirkungen zu verhindern. Szenario 1: Ausfall einer AWS-Region Stellen Sie sich vor, Ihre Produktion läuft vollständig in AWS EU-CENTRAL-1, und am 20. Oktober 2025 legt ein DNS-/interner Fehler die Region lahm. Ohne alternative Region oder Anbieter ist Ihre Anwendung offline. Mit einer Architektur, die Daten in die GREEN-S3 Cloud repliziert und Multi-Region-Deployments (oder

Tag: 27. Oktober 2025

So entwerfen Sie resiliente Anwendungen nach dem großen AWS-Ausfall am 20. Oktober 2025

Ich interessiere mich für die Notfallunterstützung von Cristie & Arctic Wolf!

Ihr it-sa 2024 Ticket
Fordern Sie kostenlos Tickets an. Gern auch mehrere über das Kommentarfeld.

CMT24 - Registrierung
Cristie Mopped Tour 2024

Schauen Sie sich das DORA Video an

Schauen Sie sich das Spectra Tape Video an

Schauen Sie sich das NIS2 Directive Video an

Save the Data - Event Registrierung

Arctic Wolf - Security Breakfast

Arctic Wolf - Security Breakfast Event

eBook: Transform Your Business with Mature Data Management

Understanding LTO-9 Tape Technology – Whitepaper

Understanding LTO-9 Tape Technology – Whitepaper

Monatliches Angebot für Cloud-Schutz anfordern

Auf dem Weg zur intelligenten Welt – Whitepaper

Striding Towards the Intelligent World – White Paper

Zero Trust Data Security for Dummies

Tag: 27. Oktober 2025

So entwerfen Sie resiliente Anwendungen nach dem großen AWS-Ausfall am 20. Oktober 2025

Ich interessiere mich für die Notfallunterstützung von Cristie & Arctic Wolf!

Ihr it-sa 2024 Ticket Fordern Sie kostenlos Tickets an. Gern auch mehrere über das Kommentarfeld.

CMT24 - Registrierung Cristie Mopped Tour 2024

Schauen Sie sich das DORA Video an

Schauen Sie sich das Spectra Tape Video an

Schauen Sie sich das NIS2 Directive Video an

Save the Data - Event Registrierung

Arctic Wolf - Security Breakfast

Arctic Wolf - Security Breakfast Event

eBook: Transform Your Business with Mature Data Management

Understanding LTO-9 Tape Technology – Whitepaper

Understanding LTO-9 Tape Technology – Whitepaper

Monatliches Angebot für Cloud-Schutz anfordern

Auf dem Weg zur intelligenten Welt – Whitepaper

Striding Towards the Intelligent World – White Paper

Zero Trust Data Security for Dummies

Ihr it-sa 2024 Ticket
Fordern Sie kostenlos Tickets an. Gern auch mehrere über das Kommentarfeld.

CMT24 - Registrierung
Cristie Mopped Tour 2024