Hallo zusammen,
ich hatte jetzt das zweite Mal innerhalb einer Woche einen Servercrash im Cluster. Der Server lief bisher Monate ohne Probleme und es gab in den letzten Wochen keine Änderung. Der Node ist auch ein Cephnode.
In der GUI ist der Node als Offline angezeigt. Er sendet also keine Hartbeats mehr. Alle VM sind offline und mit einem ? versehen. Überraschenderweise zeigt Ceph aber keinen Health-Warn oder Fehler - die vitalen Deamons müssen also noch arbeiten.
Nach einem Reset startet der Node mit den üblichen FS Fehlermeldungen, funktioniert aber dann wieder ohne Probleme. Der Cluster ist wieder komplett, alles erstrahlt in grün und Ceph ist gesund.
Ich finde in den LOG Dateien nur einen Plattenfehler, der sich aber auf einen alten USB Stick im System bezieht. Der Stick wird nicht verwendet, meldet aber trotzdem im Minutentakt:
[232015.214344] sd 7:0:0:0: [sdf] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214351] sd 7:0:0:0: [sdf] tag#0 Sense Key : Medium Error [current]
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214356] sd 7:0:0:0: [sdf] tag#0 Add. Sense: Unrecovered read error
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214361] sd 7:0:0:0: [sdf] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 f0 00
Es würde mich wundern, wenn deshalb das ganze System abstürzt. Aber kann das sein?
Habt ihr vielleicht einen Tipp, in welchen LOG Dateien ich noch nach entscheidenen Hinweisen suchen kann? Ich finde nichts ....
Danke!
ich hatte jetzt das zweite Mal innerhalb einer Woche einen Servercrash im Cluster. Der Server lief bisher Monate ohne Probleme und es gab in den letzten Wochen keine Änderung. Der Node ist auch ein Cephnode.
In der GUI ist der Node als Offline angezeigt. Er sendet also keine Hartbeats mehr. Alle VM sind offline und mit einem ? versehen. Überraschenderweise zeigt Ceph aber keinen Health-Warn oder Fehler - die vitalen Deamons müssen also noch arbeiten.
Nach einem Reset startet der Node mit den üblichen FS Fehlermeldungen, funktioniert aber dann wieder ohne Probleme. Der Cluster ist wieder komplett, alles erstrahlt in grün und Ceph ist gesund.
Ich finde in den LOG Dateien nur einen Plattenfehler, der sich aber auf einen alten USB Stick im System bezieht. Der Stick wird nicht verwendet, meldet aber trotzdem im Minutentakt:
[232015.214344] sd 7:0:0:0: [sdf] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214351] sd 7:0:0:0: [sdf] tag#0 Sense Key : Medium Error [current]
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214356] sd 7:0:0:0: [sdf] tag#0 Add. Sense: Unrecovered read error
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214361] sd 7:0:0:0: [sdf] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 f0 00
Es würde mich wundern, wenn deshalb das ganze System abstürzt. Aber kann das sein?
Habt ihr vielleicht einen Tipp, in welchen LOG Dateien ich noch nach entscheidenen Hinweisen suchen kann? Ich finde nichts ....
Danke!