Datenhaltung 2022: Fakten und Mythen

17.03.2022 / Dr. Behrooz Moayeri

Über kein IT-Thema werden zurzeit mehr Mythen verbreitet wie über die Datenhaltung. Hier ein Fakten-Check.

Mythos 1: In der Cloud ist alles billiger

Auch jeder Laie bekommt mit, dass Hyperscaler wie Google den Usern Speicherkapazität einfach „schenken“. Der S3-Speicher by AWS kostet 0,023 US-Dollar pro GB und Monat. Wer die Preise der Storage-Komponenten im eigenen RZ kennt, kann den Eindruck gewinnen, in den Clouds seien Alchemisten am Werk, die Staub zu Gold machen. Dabei gibt es in den Clouds keine anderen Speicher als die uns schon bekannten: die vertrauten Festplatten und die teureren Halbleiterspeicher. Alles, was die Cloud-Betreiber an Storage betreiben, kann man OnPrem auch aufstellen. In der Tat zahlen die Hyperscaler dank Masseneinkauf weniger als alle anderen Käufer. Doch sie zahlen. Google „schenkt“ uns nur Speicherplatz, wenn wir dem Großkonzern viel über uns verraten. Unsere Daten sind mehr wert als das Storage-Geschenk, das wir dafür bekommen. Selbst der billigste Cloud-Speicher à la AWS S3 kann nicht billiger sein als Speichermedien kosten.

Mythos 2: In der Cloud ist alles sicherer

Auch wenn es den genau entgegengesetzten Mythos gibt, gehen viele davon aus, dass die Datenhaltung in der Cloud per se sicherer sei als OnPrem. Daraus wird zuweilen der Schluss gezogen, dass allein die Verlagerung der Daten in eine Cloud einen Schutz vor den zunehmenden Angriffen biete. Für die meisten Angriffe gilt das jedoch nicht. Nehmen wir das in letzter Zeit häufigste Szenario, nämlich Ransomware: Das Einfallstor ist meistens die Kombination aus einer Sicherheitslücke eines Clients und dem falschen Verhalten eines nicht ausreichend sensibilisierten Benutzers. Dann sind sämtliche Files, auf die der Client Zugriff hat, gefährdet. Das ist unabhängig vom Speicherort der Dateien – lokal, auf einem OnPrem-File-Server oder in der Cloud.

Mythos 3: Die Cloud ersetzt die Datensicherung

Sichere Datenhaltung gab es lange vor Clouds. Die synchrone oder asynchrone, in beiden Fällen automatische Replikation der Daten, von einem System zum anderen bzw. von einem Standort zum anderen, ist eine vorbeugende Maßnahme für den Fall, dass ein System oder ein Standort ausfällt. Das allein reicht allerdings nicht. Es gibt auch noch das Szenario der Datenkorruption, die sich wegen der automatischen Replikation von einem System zum anderen, von einem Standort zum anderen, fortpflanzt. Die Ursache der Datenkorruption kann fehlerhafte Hardware oder Software, ein Benutzerfehler oder Verschlüsselung durch Ransomware sein. Für alle diese Fälle brauchen wir Datensicherung (Backup). Der Unterschied zwischen Primärdatenhaltung inkl. Replikation von einem zum anderen Primärspeicher einerseits und Backup andererseits ist der Medienbruch. Medienbruch bedeutet, dass sich das Zugriffsverfahren (insbesondere der schreibende Zugriff) auf Backup-Daten grundlegend vom Zugriff auf die Primärdaten unterscheidet. Backup-Daten können dank Medienbruch nicht mittels derselben Verfahren korrumpiert werden wie die Primärdaten. Beispiel: Der in die Fänge von Ransomware geratene User mit seinem verseuchten Client kann zwar über einen File Service wie CIFS/SMB oder NFS die Primärdaten korrumpieren, hat aber keinen solchen File-Zugriff auf die Backup-Daten. Der Standort der Primär- und Backup-Medien (OnPrem oder Cloud) ist dabei unerheblich. Entscheidend ist der Medienbruch, den man in jedem Szenario braucht. Zusätzlich muss natürlich die Korruption der Primärdaten erkannt werden, damit nicht bei der nächsten Datensicherung die Backup-Daten ebenfalls korrumpiert werden.

Mythos 4: Daten kann man halten wo man will

Die scheinbar unerschöpfliche Kapazität der Clouds hat den Mythos genährt, man könne Daten halten wo man will, auch in der Cloud. Datenhaltung ist jedoch kein Selbstzweck. Daten müssen ebenso verarbeitet werden. Prozessoren sind in den letzten vier Jahrzehnten nach dem Mooreschen Gesetz alle eineinhalb Jahre doppelt schneller geworden. Mit diesem Tempo mussten und müssen auch Speicherzugriffe und Netze Schritt halten. Lahmt in diesem Dreigespann aus Prozessor, Speicher und Netz ein Pferd, hält es die ganze Triga auf. Deshalb werden immer schnellere Speicher entwickelt. NVMe, der im Moment schnellste der weit-verbreiteten Storage-Typen, hat eine Latenz in der Größenordnung von ca. 10 Mikrosekunden. Das entspricht der Signallaufzeit in einem optischen Kabel mit einer Länge von 2 km. Eine wesentlich längere Netzverbindung wird genau zum lahmenden Pferd der Triga. Daher gehören Prozessor und Speicher zumindest dort, wo man hohe Leistung braucht, in dasselbe RZ oder in einen RZ-Verbund, dessen Standorte nicht weiter als wenige Kilometer voneinander entfernt sind. Das ist der Grund, weshalb Storage-Cluster den Modus Active-Active unterstützen. Jeder Prozessor, d.h. jeder Server, kann in einem solchen Cluster auf den nächsten Storage-Knoten zugreifen, der sich in der Regel im selben RZ befindet. Die Primärdaten von Applikationen, die hohe Leistung brauchen, können nicht ohne die zugehörigen Server in eine Cloud verlagert werden. Denn das Cloud-RZ ist normalerweise hunderte oder dutzende Kilometer entfernt. Die Cloud als Backup-Ziel für das OnPrem-RZ zu nutzen oder umgekehrt ist jedoch sehr wohl möglich. Beim Backup verarbeitet man die Daten nicht intensiv, sondern kopiert sie.

Fazit

In Zusammenhang mit der Datenhaltung wird angesichts der vielen verbreiteten Mythen Aufklärung durch gestandene Storage- und Backup-Experten mehr denn je benötigt.

RZ-Design: von Storage bis zur Virtualisierung
04.03.-05.03.2025 in Bonn | online

Der Netzwerk Insider gehört mit seinen Produkt- und Markt-Bewertungen rund um IT-Infrastrukturen zu den führenden deutschen Technologie-Magazinen. Der Bezug des Netzwerk Insiders ist kostenlos.