AKTUELL: Ceph Probleme in Karlsruhe
[Update: 03.11.2020 - 10:00 Uhr]
Die Probleme mit dem Speichersystem sind gelöst. Die Überprüfung des Storage hat ergeben, dass keine der "attached volumes" oder Rootdisks korrupt bzw. defekt sind - offenbar wurde ein Datenverlust vermieden.
Wir ermutigen alle Nutzer:innen der Region Karlsruhe sofern nicht schon geschehen, die Instanzen wieder zu starten. Bitte melden Sie sich via Ticket unter https://bw-cloud.org/q/t, sollten Sie Probleme beispielsweise bei der Anbindung von Festplatten ("attached volumes") erfahren. Ebenfalls schreiben Sie uns bitte ein Ticket mit der ID der VM bzw. Volumes, sollten beim Neustart Fehler auftreten. Lassen Sie die virtuelle Maschine in diesem Fall bitte unbedingt im angezeigten Zustand stehen und warten Sie zuerst eine Antwort auf das Ticket ab, um Schaden in Ihrer VM zu verhindern.
Wir möchten uns bei allen betroffenen Nutzer:innen für die entstandenen Unannehmlichkeiten entschuldigen. Um zu verhindern, dass so etwas zukünftig noch einmal auftritt, wird derzeit eine Analyse der Situation(en) durchgeführt.
Seit einigen Tagen treten vermehrte Probleme im Bereich des Speichers in der bwCloud Region Karlsruhe auf. Diese Probleme dauern zur Zeit (Dienstag 27.10.2020, 10 Uhr) noch an. Die bwCloud-Betriebsgruppe ist seit den ersten Meldungen im Einsatz und dabei, die Probleme ist identifizieren und zu beseitigen.
Was genau ist betroffen?
Offenbar gibt es technische Probleme im Bereich des Speichers (Ceph). Die Ursache wird noch ermittelt. Als Folge ist das gesamte System einer erhöhten internen Systemlast ausgesetzt, da Ceph über "Selbstheilungsmechanismen" verfügt. Diese Mechanismen bewirken ua. dass betroffene Teilsysteme (beispielsweise Festplatte) vermieden werden. In der Folge werden die Daten intern umgeschichtet ("re-balanciert"), was zu einer stärkeren internen Netzwerkauslastung führt, die wiederum dafür sorgt, dass die laufenen VMs nicht mehr so schnell antworten wie gewohnt.
Sind die anderen bwCloud Regionen betroffen?
Nein, es ist nur die Region Karlsruhe von den Speicherproblemen betroffen.
Sind Daten / Instanzen in Karlsruhe betroffen?
Wir versuchen unter allen Umständen einen Datenverlust zu vermeiden. Die Daten sind in mehrfach redundant intern auf den Speichermedien abgelegt, weshalb ein Verlust sehr unwahrscheinlich ist. Um die Integrität der Daten zu gewährleisten, arbeitet unsere bwCloud-Betriebsgruppe sehr behutsam an der Lösung der Probleme - was auch die längere Bearbeitungszeit erklärt.
Wo bekomme ich Updates und neue Informationen?
Hier auf dieser Webseite aktualisieren wir kontinuierlich sobald wir neue Erkenntnisse haben.