Natürlich ist klar, dass je komplexer eine IT ist, desto größer ist die Wahrscheinlichkeit, dass Fehler auftreten, die zu Störungen führen. Das ist in einer Public Cloud nicht anders als im eigenen Rechenzentrum. Nur haben wir hier eine gewisse Erwartungshaltung an Cloud-Dienste entwickelt: Weil ja absolute Experten für die spezifischen Dienste und Infrastrukturen am Werk sein sollten, könnten wesentlich höhere Verfügbarkeiten garantiert werden, als es bei einer traditionellen Diensterbringung in einem eigenen Rechenzentrum der Fall wäre. Jedoch wird auch in einer Cloud mit Wasser gekocht, und das sieht man sehr schön, wenn man die oben genannten Vorfälle bei Microsoft genauer betrachtet:
- Kumulationseffekt: Eine Störung in einem Public-Cloud-Dienst wirkt sich unter Umständen schlagartig auf viele Kunden des jeweiligen Dienstes aus. Dann können durchaus international verteilte Geschäftsprozesse lahm liegen. Im Januar gab es beispielsweise für zwei Tage international erhebliche Ausfälle bei Exchange Online [2]. Als wahrscheinliche Ursache wurde von Microsoft eine Störung auf Ebene der Domain Controller genannt [3].
- Bumerang-Effekt: Die Exponiertheit von Cloud-Diensten erfordert neben einer strengen Mandantentrennung auch andere Sicherheitsmaßnahmen, wie z.B. eine Multi-Faktor-Authentisierung oder die Verschlüsselung von Daten unter Verwendung eines eigenen Schlüsselmaterials, damit Daten auf eine sichere Weise beim Cloud Provider gespeichert werden können. Solche Sicherheitsmechanismen sind natürlich auch potentielle Fehlerquellen. Ende November 2018 war beispielsweise bei Azure die Multi-Faktor-Authentisierung (und damit der Zugang zu den hiermit geschützten Diensten) weltweit durch ein fehlerhaftes Software-Update über Stunden gestört [4]. Ein anderes Beispiel ist der oben schon erwähnte Vorfall bei Azure SQL. Hier hat es offensichtlich nur Nutzer der Funktion Transparent Data Encryption (TDE) getroffen, die eine Datenbankverschlüsselung ermöglicht.
- Automatisierungseffekt: Cloud-Dienste leben von Automatisierung. Wenn nun Software die Einrichtung und die Verwaltung von Cloud-Diensten steuert, kann natürlich eben diese Software (und sei es ein einfaches Script) fehlerhaft sein und zu immer mehr Störungen führen, bis der Automatismus schließlich gestoppt wird. Die eben erwähnte Störung bei Azure SQL fällt genau in diese Kategorie, bei der ein fehlerhafter Automatismus SQL-Datenbanken gelöscht hat. Diese Datenbanken wurden zwar schnellstmöglich aus einem Backup wiederhergestellt, jedoch fehlten in vielen Datenbanken dann natürlich kostbare Transaktionen.
Der Cloud-Nutzer ist solchen Vorfällen scheinbar mehr oder weniger hilflos ausgeliefert und er kann nur warten und hoffen, dass die Störung durch den Provider schnell beseitigt wird und der Schaden überschaubar ist. Und genau diese passive Haltung ist gefährlich. Die Nutzung von Cloud-Diensten muss eine wohl überlegte strategische Entscheidung sein, bei der risikoorientiert vorgegangen werden muss.
Das Risiko einer unzureichenden Verfügbarkeit eines Cloud-Dienstes muss im Vorfeld analysiert werden. In manchen Fällen ist es vielleicht sogar mit erträglichem Aufwand möglich durch gewisse Maßnahmen das Risiko zu reduzieren, indem der Cloud-Nutzer beispielsweise zusätzliche Mechanismen zur Datensicherung nutzt. In vielen Fällen bleibt aber nur eine Risikoübernahme (ggf. in Verbindung mit entsprechenden Rücklagen), wenn man auf den Cloud-Dienst nicht verzichten möchte. Nur ist es dann eine bewusste Entscheidung. Wesentlich ist aber, dass die Verfügbarkeit eines Cloud-Dienstes durch den Cloud-Nutzer auch überwacht und gemessen werden muss, d.h. das Risiko muss nachhaltig bewertet werden.
Störungen kommen natürlich auch im eigenen Rechenzentrum vor, nur hat man hier im Regelfall durchaus mehr Kontrollinstrumente und Einflussmöglichkeiten. Das ist einer der Gründe, warum in vielen Fällen mit Hybrid-Cloud-Konzepten gearbeitet wird, um für kritische Daten einen zusätzlichen Schutz liefern zu können (beispielsweise durch eine ergänzende lokale Sicherung von Daten aus der Cloud).
Verweise
[1] z.B.: https://www.heise.de/newsticker/meldung/Neuer-Ausfall-in-Microsofts-Cloud-Microsoft-365-betroffen-4292269.html und
https://www.theregister.co.uk/2019/01/30/azure_sql_delete/
[2] z.B. https://www.bleepingcomputer.com/news/microsoft/microsoft-365-suffers-massive-two-day-outage-outlook-and-exchange-down/
[3] https://twitter.com/MSFT365Status/status/1088434889014370304
[4] https://azure.microsoft.com/en-us/status/history/