[SOLVED] Node Absturz wachtdog: Bug: soft lockup CPU xxx stuck pvesr: xxx

MSCH

Member
Mar 10, 2020
13
1
8
60
Hallo,
bei meinen Experimenten mit 3 Nodes im Cluster und realer Hardware gleicher, neuer Server, stürzt regelmäßig ein bestimmter Node ab.

Es bekommt erst eine CPU einen soft lockup und dann später mehr, bis der Server quasi nicht mehr reagiert.

Was kann das sein?
  • ich habe ein ssd Raid 1 auf dem dem der Node läuft, alle anderen Nodes sind gleich bis auf den Arbeitsspeicher.
    ssd Raid für Proxmox, 2 * nvme als OSD ceph, 1 * sata + 3 * sas als cephfs
  • vorher lief zum Test ubuntu auf dem Gerät, dort hatte ich kein Problem mit dem Absturz.
  • werde jetzt noch einmal eine Neuinstallation mit nur einer Platte durchführen, um zu schauen ob es dann weiter vorkommt.
  • könnte es ein Hardware Problem sein?
  • könnte es eine Proxmox Einstellung sein? (Habe versucht alle Nodes synchron zu halten!)
Hat jemand evtl eine Idee? Habe gelesen, das Proxmox dort etwas schärfer eingstellt ist als eine normal Ubuntu 19.10.

VG
Michael
 
* Ich würde mal das gesamte journal durchschauen, um den Zeitpunkt herum wenn die lockups passieren!
* es wirkt so als würde irgendwo beim Storage etwas hängen.


Ich hoffe das hilft!
 
* Ich würde mal das gesamte journal durchschauen, um den Zeitpunkt herum wenn die lockups passieren!
* es wirkt so als würde irgendwo beim Storage etwas hängen.


Ich hoffe das hilft!
Welches journal? Syslog oder ein anderes? Danke
 
meinte das systemd-journal (`man journalctl`) - aber die meisten infos sollten auch im syslog landen :)