Servercrash - Fehlersuche

iwen · Aug 2, 2021

Hallo zusammen,

ich hatte jetzt das zweite Mal innerhalb einer Woche einen Servercrash im Cluster. Der Server lief bisher Monate ohne Probleme und es gab in den letzten Wochen keine Änderung. Der Node ist auch ein Cephnode.

In der GUI ist der Node als Offline angezeigt. Er sendet also keine Hartbeats mehr. Alle VM sind offline und mit einem ? versehen. Überraschenderweise zeigt Ceph aber keinen Health-Warn oder Fehler - die vitalen Deamons müssen also noch arbeiten.

Nach einem Reset startet der Node mit den üblichen FS Fehlermeldungen, funktioniert aber dann wieder ohne Probleme. Der Cluster ist wieder komplett, alles erstrahlt in grün und Ceph ist gesund.

Ich finde in den LOG Dateien nur einen Plattenfehler, der sich aber auf einen alten USB Stick im System bezieht. Der Stick wird nicht verwendet, meldet aber trotzdem im Minutentakt:
[232015.214344] sd 7:0:0:0: [sdf] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214351] sd 7:0:0:0: [sdf] tag#0 Sense Key : Medium Error [current]
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214356] sd 7:0:0:0: [sdf] tag#0 Add. Sense: Unrecovered read error
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214361] sd 7:0:0:0: [sdf] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 f0 00

Es würde mich wundern, wenn deshalb das ganze System abstürzt. Aber kann das sein?

Habt ihr vielleicht einen Tipp, in welchen LOG Dateien ich noch nach entscheidenen Hinweisen suchen kann? Ich finde nichts ....

Danke!

Stoiko Ivanov · Aug 3, 2021

iwen said:
Ich finde in den LOG Dateien nur einen Plattenfehler, der sich aber auf einen alten USB Stick im System bezieht. Der Stick wird nicht verwendet, meldet aber trotzdem im Minutentakt:
[232015.214344] sd 7:0:0:0: [sdf] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214351] sd 7:0:0:0: [sdf] tag#0 Sense Key : Medium Error [current]
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214356] sd 7:0:0:0: [sdf] tag#0 Add. Sense: Unrecovered read error
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214361] sd 7:0:0:0: [sdf] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 f0 00

Es würde mich wundern, wenn deshalb das ganze System abstürzt. Aber kann das sein?

Ich würde den stick in jedem Fall entfernen - und meiner Erfahrung nach kann ein kaputtes Blockdevice sehr wohl zu sehr hoher load (und damit potentiell zum "Absturz") führen.
Bei PVE läuft z.B. der pvestatd alle 10 Sekunden und ruft uA. pvs /vgs/lvs auf, welche alle Blockdevices durchscannen (ob denn eine LVM darauf ist) - wenn der Stick jetzt immer lange braucht bis der Fehler kommt, timed das aus - damit gibt es vom pvestatd kein update und die node wird mit einem ? angezeigt.

Ich hoffe das hilft!

iwen · Aug 3, 2021

Das hilft sehr! Vielen Dank.

iwen · Aug 13, 2021

Der Stick ist gezogen und die Meldungen sind weg. Aber ich bin mir nicht sicher, ob es ursächlich ist. Der Proxmox Host ist jetzt komplett leer - es sind übrigens auch keine Pakete als die Orginalpakete installiert. Auf allen Systemen läuft die gleiche Version.

Folgende Meldungen sind in den /var/log/messages zu lesen. Und zwar nur auf diesem Host:

Code:

g 12 14:12:29 srv-comp-03 kernel: [   26.952224] libceph: mon1 (1)10.11.11.160:6789 session established
Aug 12 14:12:29 srv-comp-03 kernel: [   26.953738] libceph: client876799809 fsid fa8c3d5f-59e3-4f2e-a4ba-21caa004650b
Aug 12 21:43:01 srv-comp-03 kernel: [27059.524738] perf: interrupt took too long (2519 > 2500), lowering kernel.perf_event_max_sample_rate to 79250
Aug 13 00:00:02 srv-comp-03 rsyslogd:  [origin software="rsyslogd" swVersion="8.1901.0" x-pid="1065" x-info="https://www.rsyslog.com"] rsyslogd was HUPed
Aug 13 00:48:02 srv-comp-03 kernel: [38160.969136] perf: interrupt took too long (3192 > 3148), lowering kernel.perf_event_max_sample_rate to 62500
Aug 13 04:57:03 srv-comp-03 kernel: [53102.191524] perf: interrupt took too long (3995 > 3990), lowering kernel.perf_event_max_sample_rate to 50000
Aug 13 10:02:37 srv-comp-03 kernel: [71436.459040] perf: interrupt took too long (4997 > 4993), lowering kernel.perf_event_max_sample_rate to 40000
Aug 13 19:03:11 srv-comp-03 kernel: [103870.561947] perf: interrupt took too long (6257 > 6246), lowering kernel.perf_event_max_sample_rate to 31750

Irgendetwas passiert alle 5 stunden.

Gruß iwen

Search

Search

Servercrash - Fehlersuche

iwen

Member

Stoiko Ivanov

Proxmox Staff Member

iwen

Member

iwen

Member