GELÖST: Ceph Probleme in Freiburg [Update: 14.05.2020 - 17:00 Uhr]
[Update: 14.05.2020 - 17:00 Uhr]
Die Probleme mit dem Speichersystem und den damit verbundenen Hardwarekomponenten sind gelöst. Alle virtuellen Maschinen wurden von der bwCloud-Betriebsgruppe mit einem automatischen Check auf fehlerhafte Datenfelder hin überprüft. Die Überprüfungen haben ergeben, dass keine der "attached volumes" korrupt bzw. defekt waren - offenbar wurde ein Datenverlust vermieden.
Wir ermutigen alle Nutzer:innen der Region Freiburg sofern nicht schon geschehen, die Instanzen wieder zu starten. Bitte melden Sie sich via Ticket unter https://bw-cloud.org/q/t, sollten Sie Probleme beispielsweise bei der Anbindung von Festplatten ("attached volumes") erfahren.
Wir möchten uns bei allen betroffenen Nutzer:innen für die entstandenen Unannehmlichkeiten entschuldigen. Um zu verhindern, dass so etwas zukünftig noch einmal auftritt, wird derzeit eine Analyse der Situation(en) durchgeführt.
[Update: 13.05.2020 - 15:30 Uhr]
Die Speicherprobleme sind gefixt, allerdings gibt es weiterhin Störungen in der internen Kommunikation der OpenStack-Komponenten bzw. der Hardwarekomponenten. In Folge können immer noch keine neuen VMs ge- werden oder die laufenden wieder angestartet werden. Wir arbeiten fieberhaft an der Behebung der Störung(en).
[Update: 12.05.2020 - 15:30 Uhr]
Die Probleme sind soweit gefixt, jetzt wird das System Schritt-für-Schritt wieder in den Produktivbetrieb überführt. Dazu gehört auch das Abarbeiten der aufgelaufenen Tickets. Die Aufräumarbeiten können noch ein wenig andauern - wir werden den Abschluss der Arbeiten unmittelbar hier vermelden. Oberste Priorität haben dabei der Erhalt und der sichere Umgang mit den VMs und den Daten.
[Update: 12.05.2020 - 14:00 Uhr]
Die Systemlast immer noch sehr hoch, da das Speichersystem immer noch mit internen Re-Balancierungen beschäftigt ist. Die Situation beruhigt sich aber langsam. Die OpenStack-Services sind wieder aktiv, allerdings können derzeit keine neuen Instanzen gestartet werden.
Die Arbeiten an der Wiederherstellung des Gesamtsystems dauern unvermindert an.
[Update: 11.05.2020 - 17:07 Uhr]
Die Ursache für die Probleme im Speicher wurde gefunden (defekte Hardware) und softwareseitig gefixt. Allerdings hat die interne Re-Balancierung der Daten für ein sehr hohes Netzaufkommen gesorgt, was einige laufende Instanzen in Mitleidenschaft gezogen hat. Die bwCloud Betriebsgruppe arbeitet daher aktuell an einer Beruhigung des Netzwerkaufkommens und anschließend an einer Wiederherstellung der Instanzen.
Weitere Informationen auch unter https://www.rz.uni-freiburg.de/rz/aktuell/stoerungen/ausfall-bwcloud-fr-200510
Für die entstandenen Unannehmlichkeiten möchten wir uns aber bereits jetzt entschuldigen.
Am Sonntag den 10.05.2020 traten vermehrte Probleme im Bereich des Speichers in der bwCloud Region Freiburg auf. Diese Probleme dauern zur Zeit (Montag, 11.05.2020, 12 Uhr) noch an. Die bwCloud-Betriebsgruppe ist seit Sonntag im Einsatz, die Probleme ist identifizieren und zu beseitigen.
Was genau ist betroffen?
Offenbar gibt es technische Probleme im Bereich des Speichers (Ceph). Die Ursache wird noch ermittelt. Als Folge ist das gesamte System einer erhöhten internen Systemlast ausgesetzt, da Ceph über "Selbstheilungsmechanismen" verfügt. Diese Mechanismen bewirken ua. dass betroffene Teilsysteme (beispielsweise Festplatte) vermieden werden. In der Folge werden die Daten intern umgeschichtet ("re-balanciert"), was zu einer stärkeren internen Netzwerkauslastung führt, die wiederum dafür sorgt, dass die laufenen VMs nicht mehr so schnell antworten wie gewohnt.
Sind die anderen bwCloud Regionen betroffen?
Nein, es ist nur die Region Freiburg von den Speicherproblemen betroffen.
Wo bekomme ich Updates und neue Informationen?
Hier auf dieser Webseite aktualisieren wir kontinuierlich sobald wir neue Erkenntnisse haben.