Störung in der Performance durch Ceph-Operationen in Karlsruhe // Update vom 29.01.2018
Update: Erneute Störungen aufgetreten (29.01.2018 - 11:22 Uhr)
Offenbar sind erneut Störungen im Speichersystem in der Region Karlsruhe aufgetreten. Die bwCloud Betriebsgruppe arbeitet intensiv an der Behebung der Störung. Höchste
Priorität hat hierbei die Sicherheit und Integrität der Daten der bwCloud Nutzerinnen und Nutzer, weshalb wir nach dem Prinzip "Sorgfalt vor Geschwindigkeit"
vorgehen. Dennoch bemühen wir uns natürlich, die Störungen so schnell wie möglich zu beheben.
Für eventuelle Unannehmlichkeiten möchte wir uns bei den Nutzerinnen und Nutzern entschuldigen und bedanken uns für die Geduld und für das Verständnis.
Update: Operation abgeschlossen (12.01.2018 - 15:00 Uhr)
Die Operationen im Speichersystem in der Region Karlsruhe sind abgeschlossen und die volle Leistungsfähigkeit der Region ist wieder hergestellt. Für eventuelle Unannehmlichkeiten möchte wir uns bei den Nutzerinnen und Nutzern entschuldigen und bedanken uns für die Geduld und für das Verständnis.
Was passiert derzeit?
Das Speichersystem in der Region Karlsruhe muss sich derzeit neu sortieren ("re-balancieren"). Dieser Vorgang wird automatisch bei bestimmten Fällen ausgelöst, beispielsweise wenn eine Komponente dem System widersprüchliche Daten meldet. Dann wird diese Komponente sicherheitshalber aus dem aktiven Ceph-Cluster herausgenommen und alle davon betroffenen Daten neu im gesamten Speichersystem verteilt. Der Vorgang der neuen Zuordnung der Daten ist aber sehr rechen- und netzwerkintensiv und führt dazu, dass die gesamte Performance der Region Karlsruhe für alle dortigen Nutzerinnen und Nutzer der bwCloud nicht die wie gewohnt hoch sondern eingetrübt und langsam ist. Die Folge sind Timeouts bei bestimmten Operationen, oder Operationen, die deutlich länger brauchen als bislang.
Sind die Daten der Instanzen in Gefahr?
Nein, bislang haben unsere Analysen gezeigt, dass keine Daten in Gefahr sind. Die Daten werden mehrfach redundant innerhalb des Speichersystems abgelegt und gespeichert und sind, selbst bei einem möglichen Ausfall einzelner Hardwarekomponenten wie Festplatten, somit immer noch verfügbar.
Wie lange dauert so eine Re-Balancierung?
Können wir nicht exakt bestimmen, aber bis morgen im Laufe des Tages (Freitag, 12.01.2018) muss noch mit Leistungseinbußen gerechnet werden.
Was kann ich als Nutzer / Nutzerin tun?
Wenn es geht, vermeiden Sie speicherintensive Vorgänge beziehungsweise verschieben diese bis morgen oder nächste Woche. Damit wird zusätzliche Last aus dem Gesamtsystem herausgenommen und die Re-Balancierung geht schneller vonstatten.