Servercrash - Fehlersuche

iwen

Member
Jan 26, 2019
19
4
8
54
Hallo zusammen,

ich hatte jetzt das zweite Mal innerhalb einer Woche einen Servercrash im Cluster. Der Server lief bisher Monate ohne Probleme und es gab in den letzten Wochen keine Änderung. Der Node ist auch ein Cephnode.

In der GUI ist der Node als Offline angezeigt. Er sendet also keine Hartbeats mehr. Alle VM sind offline und mit einem ? versehen. Überraschenderweise zeigt Ceph aber keinen Health-Warn oder Fehler - die vitalen Deamons müssen also noch arbeiten.

Nach einem Reset startet der Node mit den üblichen FS Fehlermeldungen, funktioniert aber dann wieder ohne Probleme. Der Cluster ist wieder komplett, alles erstrahlt in grün und Ceph ist gesund.


Ich finde in den LOG Dateien nur einen Plattenfehler, der sich aber auf einen alten USB Stick im System bezieht. Der Stick wird nicht verwendet, meldet aber trotzdem im Minutentakt:
[232015.214344] sd 7:0:0:0: [sdf] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214351] sd 7:0:0:0: [sdf] tag#0 Sense Key : Medium Error [current]
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214356] sd 7:0:0:0: [sdf] tag#0 Add. Sense: Unrecovered read error
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214361] sd 7:0:0:0: [sdf] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 f0 00

Es würde mich wundern, wenn deshalb das ganze System abstürzt. Aber kann das sein?

Habt ihr vielleicht einen Tipp, in welchen LOG Dateien ich noch nach entscheidenen Hinweisen suchen kann? Ich finde nichts ....

Danke!
 
Ich finde in den LOG Dateien nur einen Plattenfehler, der sich aber auf einen alten USB Stick im System bezieht. Der Stick wird nicht verwendet, meldet aber trotzdem im Minutentakt:
[232015.214344] sd 7:0:0:0: [sdf] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214351] sd 7:0:0:0: [sdf] tag#0 Sense Key : Medium Error [current]
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214356] sd 7:0:0:0: [sdf] tag#0 Add. Sense: Unrecovered read error
Aug 2 01:04:38 srv-comp-03 kernel: [232015.214361] sd 7:0:0:0: [sdf] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 f0 00

Es würde mich wundern, wenn deshalb das ganze System abstürzt. Aber kann das sein?
Ich würde den stick in jedem Fall entfernen - und meiner Erfahrung nach kann ein kaputtes Blockdevice sehr wohl zu sehr hoher load (und damit potentiell zum "Absturz") führen.
Bei PVE läuft z.B. der pvestatd alle 10 Sekunden und ruft uA. pvs /vgs/lvs auf, welche alle Blockdevices durchscannen (ob denn eine LVM darauf ist) - wenn der Stick jetzt immer lange braucht bis der Fehler kommt, timed das aus - damit gibt es vom pvestatd kein update und die node wird mit einem ? angezeigt.

Ich hoffe das hilft!
 

Der Stick ist gezogen und die Meldungen sind weg. Aber ich bin mir nicht sicher, ob es ursächlich ist. Der Proxmox Host ist jetzt komplett leer - es sind übrigens auch keine Pakete als die Orginalpakete installiert. Auf allen Systemen läuft die gleiche Version.

Folgende Meldungen sind in den /var/log/messages zu lesen. Und zwar nur auf diesem Host:

Code:
g 12 14:12:29 srv-comp-03 kernel: [   26.952224] libceph: mon1 (1)10.11.11.160:6789 session established
Aug 12 14:12:29 srv-comp-03 kernel: [   26.953738] libceph: client876799809 fsid fa8c3d5f-59e3-4f2e-a4ba-21caa004650b
Aug 12 21:43:01 srv-comp-03 kernel: [27059.524738] perf: interrupt took too long (2519 > 2500), lowering kernel.perf_event_max_sample_rate to 79250
Aug 13 00:00:02 srv-comp-03 rsyslogd:  [origin software="rsyslogd" swVersion="8.1901.0" x-pid="1065" x-info="https://www.rsyslog.com"] rsyslogd was HUPed
Aug 13 00:48:02 srv-comp-03 kernel: [38160.969136] perf: interrupt took too long (3192 > 3148), lowering kernel.perf_event_max_sample_rate to 62500
Aug 13 04:57:03 srv-comp-03 kernel: [53102.191524] perf: interrupt took too long (3995 > 3990), lowering kernel.perf_event_max_sample_rate to 50000
Aug 13 10:02:37 srv-comp-03 kernel: [71436.459040] perf: interrupt took too long (4997 > 4993), lowering kernel.perf_event_max_sample_rate to 40000
Aug 13 19:03:11 srv-comp-03 kernel: [103870.561947] perf: interrupt took too long (6257 > 6246), lowering kernel.perf_event_max_sample_rate to 31750

Irgendetwas passiert alle 5 stunden.

Gruß iwen
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!