Guten Tag, ich benötige Hilfe und Tipps bei einem Fehler dessen Ursache ich nicht sicher bin zu kennen.
Ich hoffe ich bin hier richtig und es ist ok hier nach Hilfe zu fragen.
Kurz vorweg. Ich habe heute einen RAM aus dem System genommen laut IPMItool gab es einen nicht behebbaren ECC Error. Ich habe Memtest durchgeführt 1 Pass alles gut aber das muss nichts heißen und es könnte ja auch der Slot sein.
OK.
Mainboard: Supermicro H13SSL
CPU: AMD EPYC 9174
128GB RAM 4*32GB Samsung irgendwas DDR5 ECC
Supermicro SCS-AOC-SLG4-4E4T NVME HBA
2x 480GB Kingston DC600M SSD, SATA 6Gb/s ZFS Mirror Proxmox
4x 1.92TB Samsung PM9A3 NVMe ZFS Z1 VM Datastore
Installiert ist PVE 9.1 und aktuellste Updates sind installiert
die Onboard 10GB BCM Nics( BCM57416 ) werden nicht genutzt. Die Treiber sind geblacklistet. (waren verdächtig)
Verwendet wird eine dedizierte 4 Port BCM5719 für diesen habe ich auch folgendes angepasst:
tcp-segmentation-offload: off
generic-segmentation-offload: off
generic-receive-offload: off
rx-checksumming: off
tx-checksumming: off
BIOS und sonstige Firmware alles aktuell soweit
Logs zeigen nichts einfach abgeschnitten. Das System schreibt entweder die Logs nicht oder ist einfach weg bevor es realisiert was los ist.
Auf die Netzwerkkarte bin ich aufmerksam geworden weil es bei einem robocopy übers Netzwerk zum ersten Neustart gekommen ist.
Das zeigt ipmitool:
user@notmyhost:~# ipmitool sel elist | egrep -i 'ecc|memory'
26 | 10/08/2025 | 12:37:31 PM CEST | Memory | Uncorrectable ECC (@DIMMA1(CPU1)) | Asserted
Besagten RAM habe ich ausgebaut. Aber ich will mich darauf nicht ausruhen zumal Memtest keine Auffälligkeiten am RAM finden konnte.
Das System ist frisch installiert und es laufen 5 VMs darauf. Windows Server 2025 und 2022 sowie eine W11 Maschine welche ich kürzlich von ESX migriert habe.
Sieht hier jemand ein Problem in der Kombination der Komponenten irgendeinen guten Tipp?
Viele Grüße
Ich hoffe ich bin hier richtig und es ist ok hier nach Hilfe zu fragen.
Kurz vorweg. Ich habe heute einen RAM aus dem System genommen laut IPMItool gab es einen nicht behebbaren ECC Error. Ich habe Memtest durchgeführt 1 Pass alles gut aber das muss nichts heißen und es könnte ja auch der Slot sein.
OK.
Mainboard: Supermicro H13SSL
CPU: AMD EPYC 9174
128GB RAM 4*32GB Samsung irgendwas DDR5 ECC
Supermicro SCS-AOC-SLG4-4E4T NVME HBA
2x 480GB Kingston DC600M SSD, SATA 6Gb/s ZFS Mirror Proxmox
4x 1.92TB Samsung PM9A3 NVMe ZFS Z1 VM Datastore
Installiert ist PVE 9.1 und aktuellste Updates sind installiert
die Onboard 10GB BCM Nics( BCM57416 ) werden nicht genutzt. Die Treiber sind geblacklistet. (waren verdächtig)
Verwendet wird eine dedizierte 4 Port BCM5719 für diesen habe ich auch folgendes angepasst:
tcp-segmentation-offload: off
generic-segmentation-offload: off
generic-receive-offload: off
rx-checksumming: off
tx-checksumming: off
BIOS und sonstige Firmware alles aktuell soweit
Logs zeigen nichts einfach abgeschnitten. Das System schreibt entweder die Logs nicht oder ist einfach weg bevor es realisiert was los ist.
Auf die Netzwerkkarte bin ich aufmerksam geworden weil es bei einem robocopy übers Netzwerk zum ersten Neustart gekommen ist.
Das zeigt ipmitool:
user@notmyhost:~# ipmitool sel elist | egrep -i 'ecc|memory'
26 | 10/08/2025 | 12:37:31 PM CEST | Memory | Uncorrectable ECC (@DIMMA1(CPU1)) | Asserted
Besagten RAM habe ich ausgebaut. Aber ich will mich darauf nicht ausruhen zumal Memtest keine Auffälligkeiten am RAM finden konnte.
Das System ist frisch installiert und es laufen 5 VMs darauf. Windows Server 2025 und 2022 sowie eine W11 Maschine welche ich kürzlich von ESX migriert habe.
Sieht hier jemand ein Problem in der Kombination der Komponenten irgendeinen guten Tipp?
Viele Grüße
Last edited: