Proxmox Serverstillstand

Hallo liebes Forum,

ich habe mit meinem Server von Anfang an Probleme mit der Stabilität.
Der Proxmox Server friert ohne Vorwarnung komplett ein, alle virtuellen Maschinen sind aus. Dann bleibt nur ein Aus/Anschalten um den Server wieder ans laufen zu bekommen.

Zeitlich kann man es nicht eingrenzen. Mal läuft er 30 Tage ohne Probleme, mal nur 2 Tage.
Ich kann es auch nicht mit einem bestimmten Ereigniss in Verbindung bringen.

MemTest und das Aktualisieren der Firmware (Server) brachten keinen Erfolg.

Ich lege noch einen Auszug des syslogs bei, vielleicht kann mit da wer weiterhelfen ?

Vielen Dank !

mfGernot

Es handelt sich um ein Proxmox 6.4-6 (pve-manager/6.4-6/be2fa32c (running kernel: 5.4.106-1-pve) auf folgender Hardware:

Thomas-Krenn Server:
Mainboard:Supermicro Mainboard X11SPL-F
CPU:Intel Xeon Gold 6242 (2,80GHz, 16-Core)
RAM:4 x 16 GB (1x 16384 MB) ECC Registered (RDIMM) DDR4 3200 RAM 2 Rank
SSD Hardware Raid 1 (Proxmox)240 GB SATA III Intel SSD 3D-NAND TLC 2,5" (D3-S4610)
SSD Hardware Raid 10 (LVM-Thin)4 x 960 GB SATA III Intel SSD 3D-NAND TLC 2,5" (D3-S4610)
Raid Controller:Broadcom (LSI/Avago) MegaRAID 9361-8i SAS3 8x intern
CacheVault Flash Cache Protection Module

Virtuelle Maschinen:
Windows Server 2012R21 Socket, 4 Cores - 22 GB Ram, kein Ballooning
3 x USB Festplatten USB Device durchgereicht.
Windows 10 Pro1 Socket, 1 Cores - 2 GB Ram, kein Ballooning
Windows 10 Pro1 Socket, 1 Cores - 2 GB Ram, kein Ballooning
Windows 10 Pro1 Socket, 1 Cores - 4 GB Ram, kein Ballooning
Windows 7 Pro (ausgeschaltet, nicht in Betrieb)1 Socket, 1 Cores - 2 GB Ram, kein Ballooning

Alle vituellen Maschinen haben aktuelle VirtIO Treiber (0.1.185)
 

Attachments

mhmm... der syslog sieht zwar nicht gut aus, kann aber auf die schnelle nicht wirklich ein muster oder ursache für die fehler erkennen (außer vlllt ein überlastetes system, aber den angaben nach sollte es ja doch gut ausreichen....)

ist zufällig zfs in verwendung?

vielleicht mal auf den 5.11 kernel wechseln, vllt ist ein treiber buggy (zb der raid controller)
 
ein kollege hat mich darauf aufmerksam gemacht, dass es vielleicht hilft die clocksource im bios umzustellen:
https://www.supermicro.com/support/faqs/faq.cfm?faq=28506

ist zwar ein anderes mainboard und die fehlermeldung seh ich nicht im log, aber ist definitiv einen versuch wert
 
Hallo Gernot,

exakt das selbe Fehlerbild hatte ich vor einigen Jahren, zwar mit einem deutlich älteren Supermicro X8D, doch evtl. hilft es Dir als Suchansatz.

Der identische Proxmox (nicht neu installiert), der zuvor auf einem anderen Supermicro-System absolut stabil gearbeitet hat, ist auch bei mir unvermittelt und nicht reproduzierbar eingefroren. Mal erst nach mehreren Wochen, mal bereits nach 1 - 2 Tagen. In den Logs war auch bei mir nichts zu finden. Es gab in den Logs auch kein immer wieder vorkommendes Ereignis, welches auch nur in der zeitlichen Nähe zu den Zeitpunkten des einfrieren lag.

Als Fehlerursache hat sich letztendlich herausgestellt, dass es bei diesem Supermicro X8 Probleme beim Zusammenspiel von IPMI (IPMI Sensorwerte) und einigen Hardware Sensor-Modulen gab. Der einzige Lösungsweg war dazumal, die Sensormodule nicht zu laden bzw. zu blacklisten und lm-sensors (ich glaube xsensors gibt es auch noch) nicht zu verwenden und gewünschte Hardwaredaten ausschließlich per IPMI abzufragen.

Das ist schon recht lange her, doch evtl. hilft es bei der Fehlersuche.
Nach meiner nun auch schon 30 jährigen Erfahrung und auch wenn ich kein Vollprofi bin, deutet alles auf ein Hardwareproblem.
Netzteile, wenn sie überlastet oder dem Tode nah sind, verursachen erstaunliche Fehlerbilder und auch ein intensiver wenn auch langwieriger Test des Arbeitsspeicher mit memtest86 kann sicher nicht zum Schaden sein.

Viel Glück bei der Fehlersuche, ich weiß wie nervig so etwas ist.
Detlef Paschke