Hallo,
Wir haben hier einen Supermicro X11SSH-F, Bios 2.1a, 32GB RAM,
Xeon(R) CPU E3-1245 v6.
Der Server ist über Jahre perfekt mit Proxmox 6 (Enterprise) gelaufen, letztes Wochenende haben wir ein Upgrade von 6 -> 7 -> 8 gemacht. Hat perfekt geklappt. Leider hat sich der Server diese Woche gleich zwei mal komplett aufgehängt. Und zwar vollständig: Über IPMI kam man noch auf die Konsole, es gab aber keinerlei Fehlermeldungen, auch in den Logs war nichts enthalten.
Der aktuelle Kernel ist 6.5.11-8-pve.
Die virtuellen Maschinen belegen von den 32GB 25GB, es müsste also noch genügend Speicher frei sein, aber selbst wenn das RAM ausgeht, dürfte die Maschine m.E. nicht so stecken bleiben.
Auffällig waren folgende Meldungen im Kernel-Log, die etwa 5* / Sekunde kommen:
EDID block 0 is all zeroes
Der erste Absturz war nach einer Uptime von ca. 2 Tagen und 17h, der 2. Absturz ca. nach 2 Tagen und 2h.
-> Ist es möglich, dass dieses Auftreten dieser EDID-Fehlermeldungen zu dem Absturz führen, sprich, wenn eine gewisse Anzahl erreicht ist, das System crasht?
Wir haben den Server jetzt mit Linux 5.15.131-2-pve gebootet, hier kommen diese Fehlermeldungen nicht, ob der Server stabil bleibt, weiß ich noch nicht.
Gibt es zu dem Problem einen Lösungsvorschlag?
Mfg,
Hermann
Wir haben hier einen Supermicro X11SSH-F, Bios 2.1a, 32GB RAM,
Xeon(R) CPU E3-1245 v6.
Der Server ist über Jahre perfekt mit Proxmox 6 (Enterprise) gelaufen, letztes Wochenende haben wir ein Upgrade von 6 -> 7 -> 8 gemacht. Hat perfekt geklappt. Leider hat sich der Server diese Woche gleich zwei mal komplett aufgehängt. Und zwar vollständig: Über IPMI kam man noch auf die Konsole, es gab aber keinerlei Fehlermeldungen, auch in den Logs war nichts enthalten.
Der aktuelle Kernel ist 6.5.11-8-pve.
Die virtuellen Maschinen belegen von den 32GB 25GB, es müsste also noch genügend Speicher frei sein, aber selbst wenn das RAM ausgeht, dürfte die Maschine m.E. nicht so stecken bleiben.
Auffällig waren folgende Meldungen im Kernel-Log, die etwa 5* / Sekunde kommen:
EDID block 0 is all zeroes
Der erste Absturz war nach einer Uptime von ca. 2 Tagen und 17h, der 2. Absturz ca. nach 2 Tagen und 2h.
-> Ist es möglich, dass dieses Auftreten dieser EDID-Fehlermeldungen zu dem Absturz führen, sprich, wenn eine gewisse Anzahl erreicht ist, das System crasht?
Wir haben den Server jetzt mit Linux 5.15.131-2-pve gebootet, hier kommen diese Fehlermeldungen nicht, ob der Server stabil bleibt, weiß ich noch nicht.
Gibt es zu dem Problem einen Lösungsvorschlag?
Mfg,
Hermann