Totalausfall beim Hoster mhs

Der Webhoster mhs@internet kämpfte seit gestern Abend bis kurz vor heute 14 Uhr mit einem Ausfall seiner gesamten Infrastruktur. Dadurch waren die Firmenwebseite sowie Hunderte von Kunden-Websites nicht mehr erreichbar. Gemäss InfoWeek soll der Komplettausfall an einer Störung in der „Hauptverbindung zwischen Cablecom und Swisscom im Raum St. Gallen“ gelegen haben.
In einer ersten Stellungnahme erklärt mhs-Geschäftsführer Matthias Hertzog den GAU wie folgt:

Der Grund liegt in einer defekten Swisscom Backbone-Leitung zwischen St. Gallen und Zürich. Die mhs @ internet AG ist über 5 getrennte, redundante Leitungen mit dem Backbone verbunden, leider war aber seitens Swisscom der komplette Backbone offline.
[…]
Alle bei der mhs@internet AG getroffenen Vorsichtsmassnahmen sind bei dieser Grossstörung seitens Cablecom/Swisscom „ausgehebelt“ worden.

Die mhs@internet AG ist stets bemüht, hochverfügbare Services anzubieten. Uns wurde heute Morgen schmerzlich vor Augen geführt, dass eine 5-fache Leitungsredundanz in der heutigen Zeit nicht mehr ausreicht. Aus diesem Grund werden wir die notwendigen Schritte einleiten, um eine noch höhere Unabhängigkeit von Swisscom zu erreichen und damit solche Fälle besser abfedern zu können.

Genau die Frage nach der Redundanz stellt sich auch mir, denn mhs preist Ihre Hosting-Angebote unter andem mit „Redundante Internet-Anbindung über mehrere Carrier“ an und erklärt das ganze beim Housing-Angebot noch genauer:

Der Anschluss ans Internet erfolgt über alle bei mhs@internet verfügbaren Carriern mittels BGP4-Routing und zielorientiertem Load-Balancing. Der Ausfall einer Leitung hat im Extremfall lediglich Geschwindigkeitseinbussen zur Folge, das System bleibt aber erreichbar.

Offenbar besteht die Redundanz bei mhs aber „nur“ darin, fünf unabhängige Verbindungen zum eigentlichen Backbone zu betreiben, nicht aber, eine unabhängige Verbindung zu einem zweiten Internet-Backbone zu haben. Redundanz habe ich aber bisher so verstanden, dass ein Backbone Carrier komplett ausfallen kann und die Connectivity trotzdem gewährleistet bleibt. Seh‘ ich das falsch? Irgendwelche Profis hier, die das beantworten können?

Eine Stellungnahme von Swisscom zur Ursache des Backbone-Unterbruchs wurde mir auf den späten Nachmittag versprochen. Sobald diese eintrifft, werde ich diese als Update in diesem Post publizieren.

Weitere Blogs zum Thema:

[Update] 17:36 Uhr
Gemäss Auskunft von Herrn Frei von Swisscom Media Relations bestand tatsächlich ein Problem mit einer 34 Mbit-Leitung im Raum St. Gallen. Die Leitung habe einen ungenügenden Durchsatz gezeigt, ist also nicht vollständig unterbrochen worden. Man legt aber Wert auf die Tatsache, dass die Leitung zwar der Swisscom gehört, jedoch von Cablecom gemietet ist. Demzufolge habe man auch nur beschränkte Eingriffsmöglichkeiten, da jegliche weitere Geräte, die für die Störung in Frage kämen, nicht zur Swisscom gehören, sondern von Cablecom gestellt werden. Ebenfalls sei man bei der Störungssuche von der Cablecom etwas zurückgebunden worden, wohl um einem Totalausfall vorzubeugen. Die Leitung funktioniere nun zwar wieder einwandfrei, eine Ursache konnte bis jetzt jedoch auf Seiten der Swisscom nicht gefunden werden. Im Rahmen eines normalen „Wartungsfensters“ werde man die Leitung dann nochmals genau ausmessen um der Störung allenfalls auf die Spur zu kommen.

13 Comments

Leave a Comment
  1. Na ja, immerhin läuft’s nun wieder… leider scheint es nicht mehr in Mode zu sein, nach einem solchen Ausfall sich mit einer kleinen Geste bei den Kunden erkenntlich zu zeigen, vgl. auch Hostpoint. Aber nehmen wir’s nicht zu tragisch bei dieser ganzen Sommerhitze! 😀

  2. @M.: Naja, die meisten Provider garantieren ja eine Verfügbarkeit zwischen 99 und 99,9%. Das macht bei 99,9% aber immer noch mehr als 87 Stunden. So gesehen liegt der Ausfall ja immer noch im Rahmen, auch wenn das für die Betroffenen selbst alles andere als tröstlich ist.

  3. @BloggingTom: Deine Aussage ist richtig. Die Frage ist für mich auch nicht eine vertragliche oder gar eine von Schadenersatz, sondern schlicht die Pflege von Kundenbeziehungen. Gerade für kleinere Unternehmen steht und fällt damit die Existenz… solche Gesten müssen nicht teuer und aufwändig sein um Wirkung zu zeigen.

  4. Liebe Blogger-Gemeinde

    Ich habe den untenstehenden Text bereits in einem anderen Blog gepostet, möchte es aber nicht unterlassen, auch hier Stellung zu nehmen. Daher dieser „Crosspost“.

    Ich kann den Unmut durchaus verstehen, ich habe mich selber (und unser ganzes Team) massiv über den Ausfall geärgert. Geärgert nicht „nur“ wegen dem Ausfall sondern auch deswegen, dass seitens Cablecom (Ex Solpa-Infrastruktur) schriftlich zugesagte Absicherungen nachweislich nicht der effektiv installierten Basis entsprechen. Im Detail: BGP4 wird im Moment noch von Cablecom im Outsourcing für uns betrieben, das ist und klar und das ist bisher auch okay gewesen. Zugesichert wurde aber, dass der POP an den wir Verbunden sind über zwei komplette getrennte Anbindungen (1x Zürich und 1x Chur) verfügt. Dem ist nicht so, wie wir schmerzlich erfahren mussten. Grund für den Ausfall war eine Swisscom-Leitung die Cablecom angemietet hat. Diese Leitung hatte am Montag Abend angeblich CRC-Errors sodass diese (ohne dass mhs infirmiert war !!) für mehrere Stunden seitens Swisscom und Cablecom ausser Betrieb genommen wurde. Wir haben erst davon erfahren, als wir interveniert hatten. Danach wurde uns gesagt, dass ca. Mitternacht (Montag Abend) nochmals ein Ausfall kommen würde. Dieser kam dann auch. Danach wurde uns gesagt, dass um 5:00 Uhr die Leitung ein letztes mal offline ginge. Dem war dann nicht so, um ca. 7:00 war sie dann aber tot – wieder ohne dass die mhs informiert worden wäre.

    Wir sind enttäuscht über das was seitens Cablecom und Swisscom passiert ist; wird sind enttäuscht, dass der Ausfall so lange gedauert hat und wir sehen sehr interessiert der kommenden Sitzung mit Cablecom entgegen.

    Für uns ist klar, dass man trotz aller Vorsicht und trotz den hohen Rechnungen die einem als Provider ins Haus flattern, sich nicht auf das verlassen kann, was einem im Verkaufsgespräch und im Vertrag zugesichert wird. Ich finde es bedenklich, dass man sich nicht auf die Redundanzen des Lieferanten verlassen kann, wir werden hier in Zukunft für mehr Unabhängigkeit sorgen.

    Dennoch möchte ich dem Cablecom-Team für die kompetente und zielorientierte technische Unterstützung danken. Nur dank deren Einsatz konnte das Thema doch noch gelöst werden sodass wir am Dienstag um 13:50 Uhr wieder online waren.

    Die Zukunft wird auf jeden Fall einige Verbesserungen beinhalten und zwar ohne dass wir uns auf vertragliche Zusagen verlassen.

    Ein Dank geht auch an alle unsere Kunden die sehr tolerant und Verständnisvoll reagiert haben – Danke auch für die aufmunternden und freundlichen Mails die ich nach der Behebung der Störung erhalten habe.

  5. @Matthias Hertzog: Besten Dank für die ausführliche Schilderung. Bezüglich Redundanz möchte ich nochmals nachhaken:
    1. Wäre es nicht sinnvoller, eine Redundanz über zwei verschiedene Carrier herzustellen?
    2. Ist es richtig, dass Sie Cablecom quasi Vertragsbruch vorwerfen bzw. Ihnen von der Cablecom eine Redundanz vertraglich zugesichert wurde?

  6. @BlogginTom: Ja, beide Punkte sind richtig, die entsprechenden Massnahmen (administrativ und technisch) sind bereits eingeleitet. Wir werden unsere Kunden zu gegebener Zeit über einen direkten Newsletter (so wie gestern geschehen) über die getroffenen Massnahmen informieren. Erneut: Wir sind erschüttert über die Vorkommnisse, wir haben den Verträgen geglaubt und wurden nun eines Besseren belehrt. Hier werden wir technisch nach Vorne arbeiten.

  7. Ich will nicht rumflamen hier, aber mal ehrlich, hat jemand was anderes erwartet von Cablecom?
    Wer es schon nicht schafft, im Endkundenbereich das Wort Dienstleistung zu buchstabieren, dem sollte man im Carrier-Bereich erst recht auf die Finger schauen.
    IMHO geht es bei Cablecom grundsätzlich mal als erstes darum, Geld abzuschöpfen. Allein die Probleme der Kunden, die man im Internet aufspüren kann, sollten eine deutliche Warnung sein. Und wer einmal Kontakt zur Hotline hatte, weiss wovon ich rede. Es ist unter der Gürtellinie was da abläuft. Und bis heute nimmt Cablecom keinerlei Stellung dazu.
    Schon die penetranten Cablecom-Fritzen alle 100 Meter, die einen auf Gedeih und Verderb anquatschen müssen, den Leuten das Blaue vom Himmel herunterlügen, sind ein Aushängeschild des Unternehmens. Wer so penetrant auf Kundenfang gehen muss, hat Probleme.

    Es ist schade, dass es am Ende Provider wie mhs trifft, die einem Carrier einfach vertraut haben. Cablecom verliert mit dieser Aktion einen Kunden, mhs weit mehr, wenn es dumm läuft. Nicht dass ich mhs das wünschen würde… 🙂
    Und was nützt der schönste Schadenersatz, wenn man das Kundenvertrauen erst mal wieder gewinnen muss. Ich drück Euch die Daumen, mhs!

    Ich musste das mal loswerden, seht es mir nach :-\

  8. @ric: Herzlichen Dank für das Stetement. Erfreulicherweise sind nach wie vor die eingehenden Kundenfeedbacks verständnisvoll und aufmunternd. Nichts desto trotz ist klar, dass wir alles in unserer Macht stehende tun, um eine Wiederholung der Situation vorzubeugen. Unser blog.nutzbar.ch habe ich nochmals einige Details über das weitere Vorgehen dargelegt.

    Es ist zudem schön, dass wir spontan von anderen Providern Hilfe angeboten bekommen haben. Glücklicherweise mussten wir diese Hilfe nicht in Anspruch nehmen, werden aber natürlich bei der Vergabe von Aufträgen die jeweiligen Provider speziell berücksichtigen.

    Weiter oben in diesem Blog wurde noch die Frage nach einem Wiedergutmachungs-Angebot gestellt. Hierzu kann im Moment noch nichts Abschliessendes sagen, da erst noch diverse Gespräche (Versicherung, Cablecom, Swisscom) geführt werden müssen. Das erste dieser Gespräche findet diesen Freitag statt. Sobald wir hier Fakten haben, werden wir unsere Kunden informieren.

    Es ist natürlich schwierig, einen effektiven Schaden zu beziffern. Einige Kunden können dies aufgrund der Site-Nutzung klar ermitteln, bei Anderen ist es schwierig bis unmöglich und bei sehr vielen ist es nach eigener Aussage nicht der Rede wert. Dies ist der Querschnitt der bisher eingegangen Feedbacks auf die von uns per Mail und Telefon gestellten Anfragen bei den Key-Account-Kunden.

    Ich bin sicher, dass wir eine faire und zufriedenstellende Antwort auf diese Frage finden werden.

    Viele Grüsse
    Matthias Hertzog

  9. Schon wieder?

    Diese Seite ist im Moment wegen Systemwartungsarbeiten nicht verfügbar. Bitte versuchen Sie es in einigen Minuten nochmals.

    Update 16:50: Eine unserer Store-Arrays ist derzeit nicht online, unsere Techniker führen sicherheitshalber eine komplette Disk-Kontrolle durch damit Datenverlute ausgeschlossen werden können. Die Prüfung ist im Gange und läuft bisher ohne Fehler. Wir erwarten, dass ab ca. 17:30 Uhr alle Systeme wieder normal arbeiten.

    Der Mailverkehr sowie die Benutzung der meisten Websites ist problemlos möglich.

    Alle Datenbanksysteme arbeiten normal.

    Danke für Ihre Geduld!

    Für Fragen stehen wir Ihnen gerne unter +41 71 274 93 93
    sowie per E-Mail unter support@mhs.ch zur Verfügung.

    http://www.mhs.ch/

  10. Hallo Dave

    Keine Sorge, es ist alles okay. Alles in Ordnung mit den Daten und auch alles okay mit der Verfügbarkeit. Um genau 17:33 haben wir den Store-Array wieder live genommen und bis 17:35 waren alle betroffenen Sites wieder normal am laufen.

    Wir wollten sicher gehen, dass keine Daten verloren gehen, daher haben wir die genau Prüfung des Arrays durchgeführt. Diese war erfolgreich.

    Natürlich war dies keine geplante Aktion, betroffen waren jedoch nicht alle Websites sondern nur ein Teil. Klar, tragisch genug, aber wir haben im Sinne der langfristigen Stabilität lieber alles zweimal geprüft.

    In Sachen Leitungsthematik vom August waren wir natürlich auch nicht untätig, unsere Kunden haben Zugriff auf eine Info-Seite auf der alle Schritte dokumentiert wurden. Wir arbeiten weiterhin mit Hochdruck an der Schaffung weiterer Redundanzen und werden selbstverständlich weiterhin unsere Kunden auf dem Laufenden halten.

    Soviel aber hier öffentlich:
    – Wir haben die Cablecom-Leitung nur noch als Backup-Szenario in Betrieb.
    – Die neue Anbindung ist über Swisscom Glasfaser realisiert worden.
    – Die komplette Router-Infrastruktur ist vollredundant.
    – Weitere Schritte werden folgen.

    Wir sind sehr zufrieden mit der neuen Anbindung und unserer Präsenz auf dem SwissIX. Wir sind in den letzten zwei Monaten dank einer hervorragenden Kooperation aller beteiligten Partner (Swisscom, Init7, etc.) sowie auch dank dem TOP Einsatz unserer Mitarbeiter sehr weit voran gekommen, sind aber noch nicht am Ziel.

    In diesem Sinne: Wir bleiben am Ball!!

Comments are closed.