Der Webhoster mhs@internet kämpfte seit gestern Abend bis kurz vor heute 14 Uhr mit einem Ausfall seiner gesamten Infrastruktur. Dadurch waren die Firmenwebseite sowie Hunderte von Kunden-Websites nicht mehr erreichbar. Gemäss InfoWeek soll der Komplettausfall an einer Störung in der „Hauptverbindung zwischen Cablecom und Swisscom im Raum St. Gallen“ gelegen haben.
In einer ersten Stellungnahme erklärt mhs-Geschäftsführer Matthias Hertzog den GAU wie folgt:
Der Grund liegt in einer defekten Swisscom Backbone-Leitung zwischen St. Gallen und Zürich. Die mhs @ internet AG ist über 5 getrennte, redundante Leitungen mit dem Backbone verbunden, leider war aber seitens Swisscom der komplette Backbone offline.
[…]
Alle bei der mhs@internet AG getroffenen Vorsichtsmassnahmen sind bei dieser Grossstörung seitens Cablecom/Swisscom „ausgehebelt“ worden.Die mhs@internet AG ist stets bemüht, hochverfügbare Services anzubieten. Uns wurde heute Morgen schmerzlich vor Augen geführt, dass eine 5-fache Leitungsredundanz in der heutigen Zeit nicht mehr ausreicht. Aus diesem Grund werden wir die notwendigen Schritte einleiten, um eine noch höhere Unabhängigkeit von Swisscom zu erreichen und damit solche Fälle besser abfedern zu können.
Genau die Frage nach der Redundanz stellt sich auch mir, denn mhs preist Ihre Hosting-Angebote unter andem mit „Redundante Internet-Anbindung über mehrere Carrier“ an und erklärt das ganze beim Housing-Angebot noch genauer:
Der Anschluss ans Internet erfolgt über alle bei mhs@internet verfügbaren Carriern mittels BGP4-Routing und zielorientiertem Load-Balancing. Der Ausfall einer Leitung hat im Extremfall lediglich Geschwindigkeitseinbussen zur Folge, das System bleibt aber erreichbar.
Offenbar besteht die Redundanz bei mhs aber „nur“ darin, fünf unabhängige Verbindungen zum eigentlichen Backbone zu betreiben, nicht aber, eine unabhängige Verbindung zu einem zweiten Internet-Backbone zu haben. Redundanz habe ich aber bisher so verstanden, dass ein Backbone Carrier komplett ausfallen kann und die Connectivity trotzdem gewährleistet bleibt. Seh‘ ich das falsch? Irgendwelche Profis hier, die das beantworten können?
Eine Stellungnahme von Swisscom zur Ursache des Backbone-Unterbruchs wurde mir auf den späten Nachmittag versprochen. Sobald diese eintrifft, werde ich diese als Update in diesem Post publizieren.
Weitere Blogs zum Thema:
[Update] 17:36 Uhr
Gemäss Auskunft von Herrn Frei von Swisscom Media Relations bestand tatsächlich ein Problem mit einer 34 Mbit-Leitung im Raum St. Gallen. Die Leitung habe einen ungenügenden Durchsatz gezeigt, ist also nicht vollständig unterbrochen worden. Man legt aber Wert auf die Tatsache, dass die Leitung zwar der Swisscom gehört, jedoch von Cablecom gemietet ist. Demzufolge habe man auch nur beschränkte Eingriffsmöglichkeiten, da jegliche weitere Geräte, die für die Störung in Frage kämen, nicht zur Swisscom gehören, sondern von Cablecom gestellt werden. Ebenfalls sei man bei der Störungssuche von der Cablecom etwas zurückgebunden worden, wohl um einem Totalausfall vorzubeugen. Die Leitung funktioniere nun zwar wieder einwandfrei, eine Ursache konnte bis jetzt jedoch auf Seiten der Swisscom nicht gefunden werden. Im Rahmen eines normalen „Wartungsfensters“ werde man die Leitung dann nochmals genau ausmessen um der Störung allenfalls auf die Spur zu kommen.
Seit 10 Uhr heute morgen scheint der Hosting-Provider Hostpoint die technischen Probleme, welche einen tagelangen Ausfall Hunderter von Webpräsenzen zur Folge hatten, überwunden zu haben. Zumindest kann man dies dem nun geschlossenen Troubleticket und auch dem Post „Hostpoint hat die Probleme behoben“ auf torus.ch entnehmen.
Andi von blog.artefact bemängelt hingegen, dass er nur eMails bis zum 31.12. erhalten habe und die MySQL-Datenbank aus dem Hostpoint-Backup inkonsistent war. Dazu ist allerdings fairerweise zu sagen, dass es aus Erfahrung einige Stunden dauern kann, bis alle Mails von den Backup-Mailservern zurückgespielt sind.
Derweil fällt auf, dass der Hostpoint-GAU teilweise recht irritierende Aussagen von Bloggern mit sich bringt. Während die einen eine Solidaritätskampagne für Hostpoint starten oder den eigenen Kunden ziemlich offensichtlich zu verteidigen versuchen, gibt es natürlich auch die anderen, die mit ihrer Kritik etwas über das Ziel hinausschiessen und persönlich werden.
Keines von beidem scheint mir wirklich angebracht: Hostpoint hatte ein „gröberes“ Problem, das kundenmässig sicherlich noch einige Zeit seine Auswirkungen haben wird, und schlussendlich wohl hausgemacht war (auch wenn, wie es derzeit heisst, die „externen“ Lieferanten daran schuld seien). Hostpoint hat das zu verantworten und es wird sich zeigen, wie die Firma in der Öffentlichkeit dazu stehen wird. Daraus aber gleich zu schliessen, dass Hostpoint die einzige Firma sei, der so etwas passieren könne, ist aber natürlich ebenfalls falsch. Kein Provider der Welt ist gegen Ausfälle seiner Hardware gefeit, das sollte jedem klar sein.
Allenfalls kann über den Kommunikationsstil von Hostpoint diskutiert werden, doch auch da ist fairerweise anzumerken, dass die Kräfte wohl eher auf die Fehlersuche als auf die Kommunikation konzentriert wurden. Vielleicht sollte da ein etwas ausgewogeneres Verhältnis für die Zukunft gesucht werden…
So langsam scheint man den GAU bei Hostpoint in den Griff zu bekommen. Nachdem gestern vereinzelt bereits die Server wieder erreichbar waren, wurden nun offenbar auch die Inhalte wieder auf die Server zurückgespielt. Allerdings betrifft dies laut Trouble Ticket noch nicht alle Server:
Auf folgenden Servern besteht zur Zeit noch ein Problem:
– Server 3, – Server 11, – Server 12, – Server 24, – Server 26, – Server 27, – Server X001, – Server P001Das Hardware-Problem auf unserer Storage-Lösung konnte mittlerweile lokalisiert werden. Zur Zeit sind Techniker unserer Hardware-Lieferanten vor Ort im Datacenter und tauschen die fehlerhafte Hardware aus. Danach müssen noch diverse Checks am Dateisystem durchgeführt werden. Wir rechnen damit, dass dieses Problem bis zum nächsten Morgen (04.01.2006) gelöst sein wird.
Sollte dies allerdings tatsächlich bis zum Morgen des 4. Januar dauern, muss sich Hostpoint wohl warm anziehen, denn damit wäre die vertraglich zugesicherte Verfügbarkeit von 99% unterschritten, was einer Vertragsverletzung gleichkommt und zumindest beim einen oder anderen finanzielle Forderungen auslösen könnte.
Aber immerhin kommt (endlich) Bewegung in die Sache. Allerdings wird bei einigen Firmen und Privaten, die geschäftlich von den Webseiten abhängig sind, der Tag wohl eher wie im nachfolgenden Comic aussehen:

(Bild schamlos geklaut bei Jo’s Jobwelt)