Hardware Uncorrectable Error Detected on the Previous Boot

ECTrio · Apr 29, 2025

Hallo zusammen,

ich betreibe seit ca. zwei Wochen einen HPE ProLiant DL380 Gen11 Server mit Proxmox VE und habe aktuell massive Stabilitätsprobleme. Der Server stürzt regelmäßig ab, teilweise mitten im Betrieb, und in den Systemprotokollen (IML) erscheinen folgende kritische Fehlermeldungen:

Unsupported DIMM Configuration Detected - Processor 1 DIMM 12 violates DIMM population rules.
Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x00000004, Status 0xBA000000'58000402).
Uncorrectable Error Detected on the Previous Boot.
The DIMM population on one or more processors results in a memory configuration that is not validated.

Hardwarekonfiguration:

Server: HPE ProLiant DL380 Gen11
CPU: Intel Xeon Silver 4410Y (12 Kerne, 24 Threads)
RAM: 288 GB (vermutlich 9x 32 GB ECC Registered, genaue Slotverteilung unklar)
Boot-Geräte: 2 × 480 GB NVMe
RAID-Controller: MR408i-o
Datenträger:
6 × 960 GB SSD (Intel)
2 × 1,92 TB SSD (Intel)
Netzwerk: 4 × 1 Gbit/s
Netzteile: 2 redundante Netzteile

Kennt jemand diese DIMM-Konfigurationsproblematik speziell bei der Gen11-Serie von HPE?
Ist es möglich, dass durch falsch gesteckte DIMMs diese Machine Check Exceptions ausgelöst werden?
Uncorrectable Machine Check Exception worauf deutet das hin ? Die CPU ist neu und denke nicht das sie defekt ist.

Ich freue mich über jeden Tipp. Vielen Dank im Voraus!

Falk R. · Apr 29, 2025

Hi,
wer baut denn sowas zusammen?
Die CPUs haben 8 Speicherkanäle, also im Optimalfall 8 identische RAM Riegel. 9 Riegel ist schon mal unsupportet von HPE und selbst wenn man 10 Riegel mit reduzierter Performance nutzen will, muss man stark auf die Bestückung achten.
Also mal Riegel 9 entfernen, dabei biite im Serverdeckel beschriebene Slot Belegung beachten.

philipp_h · Apr 30, 2025

Wenn da wirklich 9 (identische) Riegel verbaut sind, würde ich den Riegel vom Platz 12 entfernen und auf die Seite legen.
Danach eine supportete Speicher-Bestückung herstellen.
Das steht in der Regel im Handbuch, wie die Slots bei 8 Riegeln aussehen sollen.

HP hat soweit ich weiss eine eigene Diagnose Umgebung, die beim Booten ausgewählt werden kann.
Dort mal einen kompletten Check machen.

Firmware Update sind auch nie verkehrt.

JensF · Apr 30, 2025

Ich tippe ja drauf, dass der Server im Auslieferungszustand 2x16GB RAM Module hatte und einfach 8x32GB Module dazu gesteckt wurden (ohne auf die Belegung zu achten).
Wenn es so ist, würde ich auf die 16-er verzichten und den Server im Octa-Channel Betrieb mit den 8x32GB Modulen fahren.
Aber nichts genaues weiß man nicht...
Edit: Wobei das eher für Dell sprechen würde.

Edit2: Okay, noch anders.
Der Server wurde mit 1x32GB ausgeliefert und es kamen 4x64GB dazu.
Nur so würde es von der Bestückung her Sinn machen, das der 12-er Steckplatz belegt ist und angemeckert wird.
Die Riegel müssten dann in den Slots 3, 7, 10 & 14 sein und im 12-er Slot steckt der 32GB RAM Riegel aus der Auslieferung.

ECTrio · 2025-05-07T12:07:18+0200

Kurzes Update: Das Problem konnte gelöst werden – ich habe einen RAM-Riegel entfernt, und seitdem stürzt das System nicht mehr ab. Vielen Dank an euch alle!

JensF · 2025-05-07T12:45:38+0200

Wieviele Module und welche Größe war/ist denn jetzt im Server?

Search

Search

Hardware Uncorrectable Error Detected on the Previous Boot

ECTrio

New Member

Falk R.

Distinguished Member

philipp_h

New Member

JensF

Renowned Member

ECTrio

New Member

JensF

Renowned Member

We value your privacy