Warum sich RZ-Verantwortliche für Betriebsredundanz entscheiden

Anfang 2020 bin ich in einem Blog auf die Version 2.0 der BSI-Kriterien für die Wahl von RZ-Standorten eingegangen. Darin unterscheidet das BSI zwischen Georedundanz und Betriebsredundanz für Rechenzentren. Georedundanz bedeutet laut BSI, dass die Funktionen eines RZ-Standorts auch nach einem regionalen Großereignis wie Erdbeben auf einen oder mehrere andere Standorte übertragen werden kann. Dafür müssen die sich Redundanz gebenden Standorte mindestens 200 km Luftlinie voneinander entfernt sein. Synchrone Datenhaltung zwischen georedundanten RZs ist damit meistens nicht möglich.

Wenn man sich für synchrone Datenhaltung zwischen redundanten RZ-Standorten entscheidet, spricht das BSI von Betriebsredundanz. RZ-Standorte im Modus Betriebsredundanz können nicht 200 km Luftlinie auseinander liegen. Sie befinden sich meistens in derselben Metropolitan Area.

Damit schützt Betriebsredundanz nicht vor Komplettausfall durch ein Erdbeben oder eine nukleare Havarie. Aber zum Glück passieren solche Desaster, die ganze Regionen betreffen, nicht häufig. RZ-Verantwortliche machen sich in der Regel wegen weniger katastrophaler Szenarien mehr Sorgen. Damit meine ich lokale und nicht regionale Ausfallszenarien. Lokale Ausfallszenarien können zum Beispiel der Ausfall der gesamten Stromversorgung oder der Kühlung an einem Standort oder die Unterbrechung aller Kabeltrassen zu diesem Standort sein.

Einige RZ-Betreiber haben traumatische Erinnerungen an RZ-Ausfälle wegen des vollständigen Ausfalls der Stromversorgung oder der Kühlung in einem RZ. Zu solchen Ausfällen ist es häufig genug auch an Standorten gekommen, die mit USV, Notstrom und redundanten Kältemaschinen ausgestattet waren. Die Diskussion der Ursachen für solche Ereignisse würde an dieser Stelle zu weit führen. Nur so viel sei gesagt, dass redundante Stromversorgung und redundante Kühlung von Menschen geplant und betrieben werden, die auch Fehler machen können. In solchen Fällen können sich RZ-Standorte in getrennten Gebäudekomplexen, am besten angeschlossen an unterschiedliche Bereiche des Energienetzes und der Provider-Infrastrukturen, Redundanz geben.

Weil mit lokalen Ausfallszenarien viel häufiger zu rechnen ist als mit regionalen Desastern, möchte man beim Ausfall eines ganzen Standorts zu einem anderen wechseln, ohne dabei Datenverluste befürchten zu müssen. Diese Strategie ist auch aus BSI-Sicht zulässig. Aus dem oben genannten BSI-Dokument geht hervor, dass man zwischen Schutz vor regionalen Desastern und Schutz vor Datenverlust beim Ausfall eines RZ-Standorts abwägen sollte. Das Ergebnis dieser Abwägung kann die Präferenz für den Schutz vor Datenverlust sein.