PVE, unerwartete Neustarts oder Shutdowns

Nov 24, 2025
6
0
1
Guten Tag, ich benötige Hilfe und Tipps bei einem Fehler dessen Ursache ich nicht sicher bin zu kennen.
Ich hoffe ich bin hier richtig und es ist ok hier nach Hilfe zu fragen.


Kurz vorweg. Ich habe heute einen RAM aus dem System genommen laut IPMItool gab es einen nicht behebbaren ECC Error. Ich habe Memtest durchgeführt 1 Pass alles gut aber das muss nichts heißen und es könnte ja auch der Slot sein.

OK.

Mainboard: Supermicro H13SSL
CPU: AMD EPYC 9174
128GB RAM 4*32GB Samsung irgendwas DDR5 ECC
Supermicro SCS-AOC-SLG4-4E4T NVME HBA
2x 480GB Kingston DC600M SSD, SATA 6Gb/s ZFS Mirror Proxmox
4x 1.92TB Samsung PM9A3 NVMe ZFS Z1 VM Datastore


Installiert ist PVE 9.1 und aktuellste Updates sind installiert
die Onboard 10GB BCM Nics( BCM57416 ) werden nicht genutzt. Die Treiber sind geblacklistet. (waren verdächtig)
Verwendet wird eine dedizierte 4 Port BCM5719 für diesen habe ich auch folgendes angepasst:
tcp-segmentation-offload: off
generic-segmentation-offload: off
generic-receive-offload: off
rx-checksumming: off
tx-checksumming: off
BIOS und sonstige Firmware alles aktuell soweit
Logs zeigen nichts einfach abgeschnitten. Das System schreibt entweder die Logs nicht oder ist einfach weg bevor es realisiert was los ist.

Auf die Netzwerkkarte bin ich aufmerksam geworden weil es bei einem robocopy übers Netzwerk zum ersten Neustart gekommen ist.

Das zeigt ipmitool:
user@notmyhost:~# ipmitool sel elist | egrep -i 'ecc|memory'
26 | 10/08/2025 | 12:37:31 PM CEST | Memory | Uncorrectable ECC (@DIMMA1(CPU1)) | Asserted


Besagten RAM habe ich ausgebaut. Aber ich will mich darauf nicht ausruhen zumal Memtest keine Auffälligkeiten am RAM finden konnte.

Das System ist frisch installiert und es laufen 5 VMs darauf. Windows Server 2025 und 2022 sowie eine W11 Maschine welche ich kürzlich von ESX migriert habe.

Sieht hier jemand ein Problem in der Kombination der Komponenten irgendeinen guten Tipp? :)





Viele Grüße
 
Last edited:
Was mir nicht ganz klar ist, weshalb die netzwerkkarten verdächtig sind. Der Fehler beim kopieren über diese karten könnte mit dem ECC Fehler des Memorys zusammen hängen.
Ist die Firmware auf dem Board aktuell?
Hast den Speicher mal in einem anderen Slot getestet bzw. ein anderes Modul in dem Slot getestet?
 
Hallo ja war alles ein wenig schnell hingeschrieben.
Danke für dein Interesse und deine Hilfe.

Netzwerk deshalb weil der erste spontane Reboot geschah während ich von einem Server außerhalb des PVE Daten in eine VM geschoben habe. Das waren einige 100GB und viele kleine Dateien. Das Netzwerk war dort voll ausgelastet. Mit diesem Hintergrund bin ich auf Informationen gestoßen bzgl. BMC tg3 Treiber und Offload was wohl zu genau solchen Szenarien führen können soll. Anderen Slot habe ich nicht getestet. Erster reboot war am Do und am Sa war der Server einfach aus ab 14:17 und davor fehlern 30 minuten log. Aktuell habe ich einen syslog Server am laufen und hoffe so evtl. mehr abzugreifen. Die Logs sehen aber alle samt gut aus. Bis auf die vom IPMITool gemeldete EEC Error Sache. BIOS ist aktuell vom 12.5.25 Version 3.6 das ist das aktuellste für das Mainboard soweit ich das beurteilen kann.

Und im Prinzip sollte ich eigentlich bereits zufireden sein jetzt wo ich einen konkreten defekt gefunden habe aber irgendwie sagt mit mein Bauchgefühl etwas anderes.
Ich dachte evtl. sieht jemand an der Zusammenstellung der Komponenten bereits das es hier Probleme geben könnte.




Danke für die Hilfe
 
Last edited:
Der Verwendete LAN Adapter ist ein BCM5719 mit 4 Port wobei aktuell nur ein Port genutzt wird. Die Onboard Schnittstelle (BCM57416 10Gbit) wird aktuell nicht benötigt und nicht genutzt. Die Treiber dafür sind blacklisted und werden nicht geladen.
 
OK der RAM ist ja bereits ausgebaut und es gab dennoch einen Neustart. Das Log ist wieder von Amnesie betroffen. Das ist echt übel. Zum Glück Nachts aber das kann jederzeit passieren. Es sind immer unterschiedliche Zeiten. In diesen laufen keine Task. Weder auf externen Systemen noch auf dem PVE.

IPMI Tool meldet nun:
impitool log : 3b | 11/25/2025 | 04:39:47 AM CET | Unknown #0xff | | Asserted
3c | 11/25/2025 | 04:39:47 AM CET | Unknown #0xff | | Asserted
3d | 11/25/2025 | 04:39:47 AM CET | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
root@pve:~#

Das wäre der zweite Riegel .... jetzt bin ich am Verzweifeln.
 
Ich erhalte heute noch einen Ersatz Riegel. Neu und diesen Stecke ich auf G1. Bei der Gelegenheit entferne ich alle und stecke sie neu auf. Kann nicht schaden. A1 lasse ich dennoch draußen. Mal sehen was dann passiert. Der Lieferant macht im Hintergrund bereits Board und CPU fertig für die Reise.

Danke. Ich melde mich zurück.