Chronik eines Serverausfalls

Es ist Euch sicherlich nicht entgangen, daß einige unserer Foren von Sonntag bis Dienstag nicht erreichbar waren. Betroffen waren die Seiten inDiablo.de, inStarcraft.de und inWarcraft.de. Wir möchten uns hiermit bei unseren Usern dafür entschuldigen und allen Interessierten einen Überblick darüber geben, was eigentlich passiert ist und warum es so lange gedauert hat.

Sonntag gegen 16Uhr: Eine von zwei gespiegelten Festplatten geht kaputt – der Server mit den drei Forendatenbanken fällt aus. Der gesamte Benachrichtigungsapparat versagt; als man eine ganze Zeit später versucht die internen Verantwortlichen zu erreichen ist es bereits 23 Uhr. Ohne 24/7 Support bleibt leider nichts anderes übrig als bis zum nächsten Morgen zu warten.

Montag: In den frühen Morgenstunden wird unser Rechenzentrum in Düsseldorf durch unseren Serveradministrator verständigt. Nach einer Prüfung des Servers stellt sich heraus, daß das gesamte System neu aufgesetzt werden muß, aufgrund eines fehlenden Raidcontrollertreibers im rescuesystem (exotische Hardware). Die defekte Platte wird anschließend durch eine neue ersetzt, ein neues Betriebssystem installiert und die Dateien von der Mirrorplatte darauf kopiert. Um 23 Uhr ist der Kopiervorgang beendet und eine kurzfristige Erleichterung stellt sich ein – bis uns auffällt, daß die Daten zwei Monate alt sind. Große Ratlosigkeit, dann die Vermutung: anscheinend lag auch bei der anderen Platte vor etwa zwei Monaten ein Defekt vor, der Raidcontroller nahm sie aus dem Verbund, empfand es allerdings nicht als nötig uns darüber zu informieren. So lebten wir fälschlicherweise in dem Glauben es sei alles in Ordnung. Totmüde fällt unser Serveradministrator ins Bett.

Dienstag: Der böse Raidcontroller macht Bekanntschaft mit einem schweren Hammer und wir greifen auf das Notfall-Backup des Rechenzentrums von Sonntag Nacht zurück. Erneut werden die Daten kopiert, was bis 13Uhr dauert. Nach einer letzten Konsistenzprüfung können wir um 14Uhr verkünden: Die Foren sind wieder da.

 

Wie der Teufel so will, sind hier gleich mehrere Probleme gleichzeitig aufgetreten, was dazu führte, daß es tatsächlich so lange gedauert hat. Ebenfalls war es nicht besonders hilfreich, daß unser in*-Domain u. Team-Forum Hoster 1&1 seit drei Tagen ebenfalls massive Probleme hat und so auch die interne Kommunikation zusätzlich gestört und verzögert wurde. Wir sind noch mit einem blauen Auge davongekommen, sind aber dadurch nun auf weitere Schwachstellen aufmerksam geworden – das hilft natürlich sich in diesem Bereich weiter zu verbessern.

Als Gesamtverantwortlicher für die inGame Technik und im Namen unseres Staff möchte ich mich bei allen Usern für den langen Ausfall entschuldigen und um Euer Verständnis bitten. Natürlich sind uns solche Vorfälle sehr unangenehm und wir arbeiten stetig daran das Surferlebnis für den User im inGame Netzwerk zu verbessern.