Wenn Rechenzentren Vertrauen verspielen

Denke ich ans Rechenzentrum in der Nacht, werde ich um den Schlaf gebracht. Erodierender Datenschutz in sozialen Netzen und die Omnipräsenz digitaler Unsicherheit in den Medien sind für Profis relativ leicht verdaulich. Schwerer zu ertragen sind handfeste Ausfälle zu den unmöglichsten Zeiten, die deutlich machen, was passieren kann, wenn wir nur eine Sekunde den Überblick verlieren.

So geschehen kurz vor Redaktionsschluss dieser Ausgabe. Auf dem Weg ins lange Wochenende erhalten wir die Meldung, dass unser virtuelles „Data Center“ seinen Dienst eingestellt hat. Ausgerechnet das, welches laut Werbung doppelt so schnell und halb so teuer wie eine vergleichbare Instanz bei Amazon Web Services (AWS) ist.

Zum Glück war es nur ein Test (mit realen Daten), der sich wochenlang zu bestätigen schien. Bis auf eine Warnung kurz vor der CeBIT, dass wir ältere Snapshots besser ersetzen sollten, weil es ein Problem bei der Speicherung gegeben haben könnte. Sonst lief alles einwandfrei. Bis zum letzten Wochenende. Ausgerechnet am Freitagabend in gemütlicher Runde unter Freunden erreichte uns der Alarm.

Also schlecht gelaunt und fern der Heimat raus aus der Gemütlichkeit und rein in die Shell. Leider kein temporäres Problem, sondern ein kapitaler Störfall. Umfangreiche Datenbank komplett mit Nullen überschrieben. Wie geht das? Keine Hacks erkennbar. Auch kein ungewöhnliches Verkehrsaufkommen. Harmlose Aktivitäten ohne alarmierende Auffälligkeiten in den üblichen Logs. Nur ein kapitaler Datenverlust. Einfach so. Das könnte ein Hardware-seitiges Speicherproblem sein. Weil das zur Warnung vor defekten Snapshots passen würde, hegten wir den Verdacht, dass das Problem wohl nicht nur gespeicherte Snapshots, sondern eben auch den Storage virtueller Maschinen betrifft.

Am Samstagvormittag den kompletten Server aus einer ausgelagerten Datensicherung über träge Internetverbindung aus dem schnelleren und günstigeren Rechenzentrum zurück zu Amazon umgezogen und die resultierenden DNS-Korrekturen veranlasst. Samstagnachmittag war der Spuk vorüber und ich konnte mich wieder meinen Freunden widmen. 17 Stunden, 16 Minuten betrug die Ausfallzeit. Sicher – wären wir im Rechenzentrum geblieben und hätten einfach nur unseren jüngsten Snapshot reaktiviert – hätten wir den Server innerhalb von Minuten wieder hochfahren können. Doch was tun, wenn das Vertrauen in die Infrastruktur schlagartig und buchstäblich „dev null“ ist?

Womit wir beim Thema der aktuellen Ausgabe wären. Um eine planbare LWL-Verkabelung geht es im ersten Beitrag von Harald Jungbäck ab Seite 6. Mit einer zentralen Glasfaser-Verteilung beschäftigt sich Andreas Klees ab Seite 10. Wilfried Braun, Bernd Haustein und Kerstin Ginsberg schreiben ab Seite 12, wie sie Rechenzentren und Infrastrukturen auf größeren Schiffen hochseetauglich machen. Akademisch geprüft geht es ab Seite 14 zu: Björn Schödwell und Prof. Dr. Rüdiger Zarnekow von der TU Berlin vergleichen, was Rahmenwerke für mehr Energieeffizienz und messbaren Klimaschutz in der Praxis taugen. Peter Wäsch macht ab Seite 18 einen Ortsbesuch bei der DATEV. Der IT-Dienstleister und Softwarehersteller integrierte spezielle Stromverteiler und Kabelmanagementsysteme in seine Rack-Architektur. Was es beim Wechsel in ein Virtual Data Center zu bedenken gilt, erklärt Martin Dombrowski ab Seite 22. Flexibel, skalierbar und hochverfügbar sollen sie sein. Denn schlecht geplant zieht die Virtualisierung im großen Stil ungebetene Besucher an. Die Kombination aus freier und adibater Kühlung untersucht Heike Millhoff auf Seite 23. Mit Richtlinien für eine optimierte Kühlung und vorhersagbaren Temperaturen beendet Dr. Peter Koch ab Seite 24 unsere Themenauswahl.

Mittwochabend kam übrigens der Anruf vom Rechenzentrum mit der Frage, weshalb wir unser virtuelles Data Center aufgegeben hätten, worauf wir den eingangs erwähnten Störfall rekapitulierten. Und jetzt kommt’s: Ja, es könnte tatsächlich ein Problem mit der Storage-Anbindung in ihrem Rechenzentrum gewesen sein, an der die Techniker seit Wochen (vergeblich) schrauben. Wenn das kein Grund ist, mit einer gesunden Paranoia am Ball zu bleiben, damit wir alle besser schlafen können ;-)

Quelle: Rechenzentren und Infrastruktur 2/2014 in iX 5/2014