Hardwareproblem? PRIMERGY TX2550 M5

56323

New Member
Jul 22, 2021
13
0
1
54
Hallo Forum,
wir haben u.a. zwei TX2550 als PVE-Knoten laufen. Die beiden TX2550 sind nicht ganz baugleich, da zu verschiedenen Terminen gekauft.

Einer läuft wie erwartet "24h/365Tage", der andere macht permanent Probleme:
- einzelne VM's bleiben einfach stehen... (laufen nach der Migration auf den anderen Knoten problemlos durch)
- PVESTATD/PVE-Status-Daemon bleibt stecken, w.f.: (der Knoten ist dann ausgegraut, im Webbackend)
#"Feb 6 18:57:34 proxmox104 kernel: [17544.648939] traps: pvestatd[1464] trap invalid opcode ip:7f85ecda477a sp:7ffedac24a28 error:0 in libc-2.31.so[7f85ecc57000+15a000]
Feb 6 18:57:34 proxmox104 systemd[1]: pvestatd.service: Main process exited, code=killed, status=4/ILL
Feb 6 18:57:34 proxmox104 systemd[1]: pvestatd.service: Failed with result 'signal'."
Feb 6 18:57:34 proxmox104 systemd[1]: pvestatd.service: Consumed 1min 47.060s CPU time.
- der Host bleibt teilweise komplett stehen (s. SC): "Kernel panic - not syncing: Fatal exception in Interrupt"

- auch ohne gestartete VM's gab es schon "Kernel panic"

--> Ich habe mir in den letzten Tagen mal Zeit genommen, und das aktuelle BIOS-Update von Fujitsu aufgespielt, leider KEINE Verbesserung zu Guten
--> Gestern habe ich den "microcode" Updater installiert (ich hoffe es ist alles richtig installiert):
# dmesg | grep -i microcode
[ 2.251083] microcode: sig=0x50657, pf=0x1, revision=0x5003302
[ 2.251395] microcode: Microcode Update Driver: v2.2.

--> danach, gestern Abend stand wieder der "PVE-Status-Daemon" s.oben

--> die Probleme gab es auch schon unter Der PVE 6.x, allerdings die komplett Ausfälle mit "Kernel panic" häufen sich jetzt unter PVE 7.3

------------- Ist Zustand ------------------
Softwaresand: PVE 7.3-4
Prozessor: cpu family : 6 model : 85 model name : Intel(R) Xeon(R) Silver 4210 CPU @ 2.20GHz stepping : 7 microcode : 0x5003302
RAM : 64GB ECC
RAID1: 2x 1GB SSD über PCIex (mdadm)
RAID5: 4x HDD 2,5" über Backplane angeschlossen (mdadm)

Mir fällt nix mehr ein...

Viele Grüße
Tilo
 
ECC ist im Bios auch aktiv?
Das riecht nach Speicherfehlern. Wegen ECC kann es dann eigentlich nur noch die CPU selbst sein. Bzw. deren Spannungsversorgung oder Kühlung.
Wie warm wird die denn? Liefert lm-sensors vernünftige Werte?
 
Hallo mow,
- ich finde im BIOS des Servers keine Option, wo man ECC extra an- oder abschalten kann ?!
- alle Temperaturen sind im Normbereich
 
Situation ist unverändert, s. Syslog:
# cat /var/log/syslog | grep "trap invalid opcode"
Mar 4 11:27:47 proxmox104 kernel: [ 295.295783] traps: pmxcfs[2802] trap invalid opcode ip:7f2ae0852c6a sp:7f2ad7ffe7d8 error:0 in libc-2.31.so[7f2ae0718000+14b000]
Mar 4 15:43:49 proxmox104 kernel: [ 2760.044390] traps: pmxcfs[2661] trap invalid opcode ip:7fe01369c84a sp:7fe00e813728 error:0 in libc-2.31.so[7fe013565000+15a000]
Mar 4 16:18:12 proxmox104 kernel: [ 4822.574117] traps: sh[97163] trap invalid opcode ip:7f47f5dd4bea sp:7ffcb7fccc08 error:0 in libc-2.31.so[7f47f5c85000+15a000]

das Serversystem bleibt auch mal spontan mit Kernel -Panic stehen

Auf Rückfrage bei Fujitsu, inkl. Systemcheck (PrimeCollect), ist leider nichts konkretes raus gekommen: "Es wurde an dem Server kein Hardware-Fehler gefunden."
 
Wenn die Fehler mit verschiedenen Versionen auftritt, ist das Hardware oder eine Einstellung.
Hast du beide Systeme im BIOS komplett identisch eingestellt?
Sind die C-States aus? VT-d an?
 
Hallo Falk,
Vt-d ist (natürlich) an,
die BIOS Option: "C-States" war bis dato aktiv, ich habe sie gerade deaktiviert.

Aber leider auch nach der BIOS-Änderung " trap invalid opcode":

Mar 6 09:40:43 proxmox104 kernel: [ 662.072259] traps: pveproxy worker[2846] trap invalid opcode ip:7f29d9c302d9 sp:7fffbaec83c8 error:0 in libc-2.31.so[7f29d9ae3000+15a000]
Mar 6 09:46:56 proxmox104 kernel: [ 1034.890227] traps: pveproxy worker[2848] trap invalid opcode ip:7f29d9c3132a sp:7fffbaec86a8 error:0 in libc-2.31.so[7f29d9ae3000+15a000]
 
Update: ich kann es wahrscheinlich eingrenzen...

- wenn ich die 2. CPU im BIOS abschalte,
--> dann kommen keine Fehler nach dem o.g. Muster (trap invalid opcode) mehr

Muss es zeitlich noch etwas länger prüfen
- aber ich habe gestern (ca. 12 Stunden) das System mit nur EINER CPU laufen lassen
und keinerlei Fehler im Syslog gehabt

Bleibt trotzdem die Frage, ob es nun ein Hardwarefehler oder ein Bug/KonfigBug zBsp. im Proxmox-Kernel ist?
 
Ich hatte einmal Fehler wenn eine gewisse Menge an benutztem RAM überschritten wurde. War am Ende ein verbogener Pin bei einem CPU Sockel. Wenn der jetzt mit einer CPU läuft, ist es sehr wahrscheinlich Hardware.
 
Wollte nur noch mal den aktuellen Status melden:
- System läuft jetzt fehlerfrei
--> allerdings nur, wenn die 'fehlerhafte' CPU deaktiviert oder ausgebaut ist
Habe das System jetzt zum "single processor system" degradiert. Die 2x 32GB RAM stecken jetzt an der CPU1.
Damit ist das Problem für uns gelöst.
Warte jetzt noch auf die Antwort von Fujitsu, ob es für den Prozessor eine Prüfmöglichkeit gibt.
Wir haben ja noch Garantie auf das System, gilt wahrscheinlich aber nur für Leute, welche die Maschine mit ZERTIFIZIERTEN Betriebssystemen (RedHad / Suse / Windows-Server) einsetzen.
 
War am Ende ein verbogener Pin bei einem CPU Sockel. Wenn der jetzt mit einer CPU läuft, ist es sehr wahrscheinlich Hardware.
Hatte ich zwei mal :rolleyes:
Wer denkt auch daran...
Konnte es jeweils beseitigen, in dem ich die CPU-Kontakte an der Unterseite mit gutem Kontaktspray gereinigt hatte.
Da wurde wohl vom Werk aus unsauber gearbeitet.
 
Warte jetzt noch auf die Antwort von Fujitsu, ob es für den Prozessor eine Prüfmöglichkeit gibt.
Du könntest ja mal die CPUs gegeneinander tauschen. Wenn dann der Fehler wieder auftritt und verschwindet, wenn Du wie oben schon erwähnt CPU 2 deaktivierst, ist es der Sockel. Wenn der Fehler dann immer noch auftritt, also auf Sockel 1 mitgewandert ist, muß es die CPU sein.
 
Wollte nur noch mal den aktuellen Status melden:
- System läuft jetzt fehlerfrei
--> allerdings nur, wenn die 'fehlerhafte' CPU deaktiviert oder ausgebaut ist
Habe das System jetzt zum "single processor system" degradiert. Die 2x 32GB RAM stecken jetzt an der CPU1.
Damit ist das Problem für uns gelöst.
Warte jetzt noch auf die Antwort von Fujitsu, ob es für den Prozessor eine Prüfmöglichkeit gibt.
Wir haben ja noch Garantie auf das System, gilt wahrscheinlich aber nur für Leute, welche die Maschine mit ZERTIFIZIERTEN Betriebssystemen (RedHad / Suse / Windows-Server) einsetzen.
Dein OS ist vollkommen egal, wenn ein Defekt vorliegt, muss getauscht werden.
Du kannst ja sagen, hast du mit Redhat oder Windows nachgestellt. ;)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!