Server Crashes nach BIOS Update

NothingTV

Member
Nov 4, 2019
20
1
23
Hallöchen!

Vorab: Es kann durchaus sein, dass das kein direkter Proxmox Fehler ist, ich hoffe dennoch, dass mir eventuell jemand helfen/Tipps geben kann.

Ich habe vor ein paar Monaten einen Storage Server "Supermicro SuperStorage 6049P-E1CR36L" gekauft, welches das Mainboard X11DPH-T 2x Intel Xeon Gold 6138, 256 GB RAM und 2x 2TB NVMes verbaut hat. Außerdem sind 34 SAS HDDs und 4 SATA HDDs verbaut. Installiert wurde die neuste Proxmox Version, mit ZFS als Filesystem. Wir haben die 2x 2TB zur hälfte für das System partitioniert und die andere als ZFS Cache. Die HDDs wurden in 4er Gespanne jeweils mit RAID5 in einen ZFS Pool hinzugefügt, damit eine möglichst gute Performance und dennoch Sicherheit (in Form des mdadm RAID5).

Nun wurde das BIOS des Mainboards auf die neuste Version (von einer der ersten) aktualisiert und seitdem crashed das System ununterbrochen. Egal ob Last vorhanden ist, oder nicht. Proxmox selbst verzeichnet nur einen Reboot, im IPMI sieht man lauter Fehler dieser Art:
652023/12/12 14:28:13ProcessorConfiguration error - OutBound Traffic Controller(OTC) - Parity error on incoming addr from IRP, CPUSocket#2, CPUStack#1(Current Boot error). - Assertion
662023/12/12 14:28:14ProcessorConfiguration error - OutBound Traffic Controller(OTC) - Parity error on incoming addr from IRP, CPUSocket#2, CPUStack#1(Current Boot error). - Assertion
672023/12/12 14:28:15ProcessorConfiguration error - CPU 1 CHA Cache Recoverable error(Last Boot error). - Assertion
682023/12/12 14:28:15ProcessorConfiguration error - CPU 2 UPI BUS Recoverable error(Last Boot error). - Assertion
Die CPUs sowie das Mainboard wurden bereits getauscht, daher gehen mir hier leider die Ideen aus. Der Händler stellt sich leider auch quer. :(

Hatte jemand schon einmal einen ähnlichen Fall oder kann allgemein Tipps geben?

Mit freundlichen Grüßen
Marc
 
Die CPUs sowie das Mainboard wurden bereits getauscht
Wie wurden die CPUs getauscht, einfach nur Socket vertauscht oder wirklich zwei andere? Wer hat das gemacht?
Das Mainboard wurde auch wirklich gegen eines anderes getauscht? Wer hat das Mainboard getauscht?

Welche Schritte des Debugging habt ihr im Detail bereits durchgeführt?

//EDIT:

Bitte auch mal im Detail alle Komponenten aufführen, angefangen beim Chassis über alle eventuellen Steckkarten und Riser bis zu jedem RAM Riegel und den Disks.
 
Last edited:
Wie wurden die CPUs getauscht, einfach nur Socket vertauscht oder wirklich zwei andere? Wer hat das gemacht?
Das Mainboard wurde auch wirklich gegen eines anderes getauscht? Wer hat das Mainboard getauscht?

Welche Schritte des Debugging habt ihr im Detail bereits durchgeführt?
Also das Mainboard wurde vom Verkäufer (2nd-source) getauscht, das Tauschboard hatte eine alte BIOS Version, damit lief es erstmal wieder stabil, da wir nicht wussten, dass es offenbar am BIOS liegt, haben wir ein Update durchgeführt (gab diverse Sicherheitsupdates). Danach fingen die Crashes wieder an.

Die CPUs wurden tatsächlich nur kreuzgetauscht, auf Vorschlag des Verkäufers.

Ansonsten wurden bereits diverse Hardware Komponenten getauscht, bspw. der 10G Adapter (aufgrund der Network Fehler im IPMI), der RAM vollständig getauscht, GPU die zuvor eingebaut war, ausgebaut und sonst diverse BIOS Settings getestet. Das einzige was mir einfällt, wäre ein BIOS Downgrade, was leider nicht möglich ist, weil supermicro die alten Versionen nicht mehr anbietet. Diverse Archive URLs haben mal die BMC version, mal diese BIOS Version, aber nicht das passende Bundle.

Hier eine Auflistung der verbauten komponenten (kopiert vom Verkäufer 2nd-source):

Prozessor 2x Intel Xeon Gold 6138 2.00GHz 27.5MB 20-Core CPU 125W
installierte Speichermodule 16x 16GB kompatibler RAM
Netzwerkcontroller Intel C622 Embedded X722 + X557 2x10GBase-T Network Controller
Storage Controller Intel C622 Software SAS SATA RAID Controller
Festplatten 32x Seagate Exos 7E8 6TB 7.2k SAS 12G LFF HotPlug HDD, 4x 18 TB HGST HDDs
Module 1x Supermicro Broadcom 3008 12G PCIe SAS HBA Low Profile, 1x Supermicro 2x SFF-8643 2x SFF-8644 Add-on Card Low Profile
Anschlüsse 2x RJ-45 10GBase-T, 7x USB 3.2 (2 via header, 4 rear, 1 Type-A), 1x VGA, 1x COM, 1x TPM
Kühlung 7x Supermicro 80x80x38 mm Fan Modules, 1x Supermicro 2U Passive Heatsink up to 205W, 1x Supermicro 2U Narrow Passive Heatsink up to 205W
Stromversorgung 2x Supermicro 1200W HotPlug Power Supply
Remote management IPMI 2.0 ASPEED AST2500
Speichermedien 36x 3.5" LFF SATA / SAS HotPlug (24x front, 12x rear), 2x 2.5'' SFF SATA HotPlug (rear)
 
Der Händler stellt sich leider auch quer.
Ja... Ich habe schon ähnliche Erfahrungen mit diesem gehabt ^^
Also das Mainboard wurde vom Verkäufer (2nd-source) getauscht
Vielleicht missverständlich ausgedrückt, es ging mir darum wer den physischen Austausch im betroffenen System vorgenommen hat. Ich habe früher reihenweise Supermicro Systeme gebaut und durfte einiges debuggen und auch komplexe Systeme reparieren. So Klassiker waren immer, dass die Plastikfolie unten dem Mainboard fehlte oder Abstandshalter nicht demontiert wurden. Manche Boards haben auch einen Molex Stecker der eigentlich Platten mit Strom versorgen sollte, doch manchmal hat man da auch einfach das PSU drauf geklemmt oder es war stumpf das Netzteil kaputt. Hin und wieder hat man auch mal ne CPU in den Socket fallen lassen und sich dann gewundert, dass 2 DIMMs nicht mehr erkannt wurden oder das System nicht gestartet ist.

Daher wäre eben meine Frage ob man beim Austausch auch mal ob solche Dinge geachtet hat. Auch beim CPU Tausch mal in den Socket schauen und prüfen, ob es Auffälligkeiten gibt, vielleicht ist auch mal Wärmeleitpaste rein gefallen oder der Anspressdruck stimmt nicht (zu schwach / zu fest) oder halt einfach das PSU oder die PDU ein Problem hat.

Ansonsten wurden bereits diverse Hardware Komponenten getauscht, bspw. der 10G Adapter (aufgrund der Network Fehler im IPMI), der RAM vollständig getauscht, GPU die zuvor eingebaut war, ausgebaut und sonst diverse BIOS Settings getestet.
Dem entnehme ich aber, dass ihr noch nicht die klassichen Debug Steps gemacht habt, darunter verstehe ich, dass alles bis auf das Minimum ausgebaut wird (vorher aber prüfen, dass das System physisch korrekt zusammengebaut ist und keine offensichtlichen Fehler vorhanden sind wie oben erwähnt, z.B. die Abstandshalter etc.).
Also es bleibt nur das Mainboard drin mit einer CPU, einem DIMM, dem Netzstecker und der Kontrollleitung vom PSU - alles andere, ob Riser, Steckkarten, Frontlüfter, Backplane, SAS Kabel etc. pp. werden gar nicht angesteckt und sind bestenfalls entfernt.
Wenn das dann funktioniert und es keine Probleme gibt, würde ich die zweite CPU einbauen und einen weitern DIMM. Sollte das nicht erfolgreich sein, würde ich die CPU swappen und es bei einer CPU und RAM lassen. Sollte sich dann herausstellen, dass es weiterhin nicht funktioniert, kann es letztlich nur an diesen drei Komponenten liegen.

Wenn ihr andere CPUs habt, optimalerweise eine v2 (also z. B. Gold 6238) das gleiche damit ausprobieren. Wenn ihr schwächere CPUs habt auch mit diesen mal testen.

Viel Arbeit könnte man sich natürlich auch sparen, wenn man das Mainboard ausbaut und an einem neuen externen Netzteil anschließt und dort testet. Vielleicht ist auch einfach nur eine der beiden CPUs durch (mag unwahrscheinlich sein, aber wer weiß wie zuvor behandelt wurden).

Insgesamt ist wichtig, dass Ihr eine strukturierte und durchdachte vorgehensweise habt um das Problem einzuschränken. Vielleicht lohnt sich auch der Aufwand nicht und die CPU hat stumpf ein Problem mit dem Board oder die Revision von Board / CPU mögen sich nicht. Seltene Konsetallation die vielleicht auch nur euch betrifft. Möglich wäre es auch, dass ihr euch mal an Supermicro wendet und schaut, ob die euch was anbieten können.

Wenn ihr aber weder vom Hänlder noch von Supermirco unterstützung bekommt, bleibt euch eben nichts anderes übrig als selbst alles mögliche zu debuggen oder ein neues alternatives System zu kaufen.
 
Gespanne jeweils mit RAID5 in einen ZFS Pool hinzugefügt, damit eine möglichst gute Performance und dennoch Sicherheit (in Form des mdadm RAID5).
Ich hoffe ihr habt nicht wirklich md Raid5 gebaut in in einen ZFS Pool gepackt.
Nun wurde das BIOS des Mainboards auf die neuste Version (von einer der ersten) aktualisiert und seitdem crashed das System ununterbrochen. Egal ob Last vorhanden ist, oder nicht. Proxmox selbst verzeichnet nur einen Reboot, im IPMI sieht man lauter Fehler dieser Art:
652023/12/12 14:28:13ProcessorConfiguration error - OutBound Traffic Controller(OTC) - Parity error on incoming addr from IRP, CPUSocket#2, CPUStack#1(Current Boot error). - Assertion
662023/12/12 14:28:14ProcessorConfiguration error - OutBound Traffic Controller(OTC) - Parity error on incoming addr from IRP, CPUSocket#2, CPUStack#1(Current Boot error). - Assertion
672023/12/12 14:28:15ProcessorConfiguration error - CPU 1 CHA Cache Recoverable error(Last Boot error). - Assertion
682023/12/12 14:28:15ProcessorConfiguration error - CPU 2 UPI BUS Recoverable error(Last Boot error). - Assertion
Die CPUs sowie das Mainboard wurden bereits getauscht, daher gehen mir hier leider die Ideen aus. Der Händler stellt sich leider auch quer. :(
Softwaretechnisch seid ihr aktuell?
Ja... Ich habe schon ähnliche Erfahrungen mit diesem gehabt ^^
Ich habe bisher nur gute Erfahrung mit denen gemacht.
 
Ich habe bisher nur gute Erfahrung mit denen gemacht.
Ich meckere auch nicht über die Ware, das Angebot, die Bestellung oder Lieferung. Auch nicht über die Mitarbeiter. Der Kontakt mit dem GF war bisher immer sehr unangenehm, sehr kurz angebunden, auf ein Satzbau wird auch gerne verzichten, die üblichen grußformeln samt Signatur gibt es auch nicht und manche Antworten waren sehr hochtrabend nach dem Motto "man hat es nicht nötig mit mir Geschäfte zu machen". Sowas ist mir bisher noch nicht untergekommen, daher vermeide ich es auch dort zu bestellen und mache es nur, wenn es wirklich gut ist. Da habe ich einige andere Händler welche ich per Email anschreibe und mitteile, dass ich X oder Y haben will, wird sogar am gleichen Tag auf Rechnung verschickt und preislich kommt man mir auch entgegen obwohl nicht danach gefragt.
Ich bin ein Freund davon offen und ehrlich mit einem Lieferanten umzugehen, das kann man mit diesem leider nicht - so meine Erfahrung. Insofern wundert es mich auch nicht, dass der Ersteller hier schlecht bedient ist.

Aber gut, soll ja nicht um den Händler gehen :)
 
Ich meckere auch nicht über die Ware, das Angebot, die Bestellung oder Lieferung. Auch nicht über die Mitarbeiter. Der Kontakt mit dem GF war bisher immer sehr unangenehm, sehr kurz angebunden, auf ein Satzbau wird auch gerne verzichten, die üblichen grußformeln samt Signatur gibt es auch nicht und manche Antworten waren sehr hochtrabend nach dem Motto "man hat es nicht nötig mit mir Geschäfte zu machen". Sowas ist mir bisher noch nicht untergekommen, daher vermeide ich es auch dort zu bestellen und mache es nur, wenn es wirklich gut ist. Da habe ich einige andere Händler welche ich per Email anschreibe und mitteile, dass ich X oder Y haben will, wird sogar am gleichen Tag auf Rechnung verschickt und preislich kommt man mir auch entgegen obwohl nicht danach gefragt.
Ich bin ein Freund davon offen und ehrlich mit einem Lieferanten umzugehen, das kann man mit diesem leider nicht - so meine Erfahrung. Insofern wundert es mich auch nicht, dass der Ersteller hier schlecht bedient ist.

Aber gut, soll ja nicht um den Händler gehen :)
Ich habe bisher keinen Kontakt mit dem GF gehabt, aber die Mitarbeiter waren immer Lösungsorientiert und haben auch Mitgedacht.
 
Erstmal vielen Dank für deinen input! :)
Ja... Ich habe schon ähnliche Erfahrungen mit diesem gehabt ^^
Würde ja sagen, freut mich zu hören, dass ich noch einen 2nd-source Leidensgenossen habe, aber naja.. :D
Die Antworten vom Geschäftsführer sind auch so derart daneben, das ist wirklich unglaublich, also das war auch definitiv das letzte mal, dass wir dort etwas bestellt haben.

Wenn ihr andere CPUs habt, optimalerweise eine v2 (also z. B. Gold 6238) das gleiche damit ausprobieren. Wenn ihr schwächere CPUs habt auch mit diesen mal testen.
Haben leider keine CPU dieser Art vor Ort, aber das ist auch meine einzige Idee. Das Board etc. sollte nicht defekt sein, vor dem BIOS Update lief wirklich alles einwandfrei, das hat man davon, wenn man von "never change a running system" abweicht. Ich würde erstmal probieren, an eine alternative CPU zu kommen und es damit testen,
Aber genau das ist halt auch leider der Punkt. mit alter BIOS Version lief alles einwandfrei, mit neuer nicht mehr.

Ich hoffe ihr habt nicht wirklich md Raid5 gebaut in in einen ZFS Pool gepackt.
Was spricht dagegen?

Softwaretechnisch seid ihr aktuell?
So aktuell es nur geht :D

Ich denke, ich werde wie vom Geschäftsführer von 2nd-source gewünscht, den gerichten Weg mit denen gehen und dann einen alternativen Verkäufer suchen. Immerhin wird offiziell Garantie angeboten,
@sb-jw ich danke dir auf jeden Fall für deinen input! Da waren jetzt einige Sachen dabei, die ich bisher auch gar nicht auf'n Schirm hatte (bspw. diese Plastikfolie). Ich bespreche das nochmal mit dem Techniker vor Ort, aber ich denke, dass es das tatsächlich war mit dem System. Auf Gut Glück eine der neuen v2 CPUs dieser Generation zu kaufen, übersteigt das Budget für das System, auch wenn es mich wirklich brennend interessieren würde, ob es wirklich daran liegt (war von Anfang an mein guess).
 
Was spricht dagegen?
Erstens hat ZFS das besser "Raid" integriert und Raid Disks in einem ZFS Pool sind nicht Supportet. Da ist es egal ob Hardware oder Software Raid.
ZFS könnte Bitfehler automatisch reparieren, jetzt kann dir ZFS nur sagen wenn Bitfehler auftreten, dann darfs du aus dem Backup restoren.
Die Performance wird so auch nicht besser.
 
Möchte mich hier nochmal kurz zu Wort melden: Der Verkäufer hat das Board erneut getauscht, mit einer älteren BIOS Version (2.0b) und schon läuft wieder alles. So kann ich zwar keine GPUs verwenden, aber der Server läuft an sich wieder sehr stabil. :)

Erstens hat ZFS das besser "Raid" integriert und Raid Disks in einem ZFS Pool sind nicht Supportet. Da ist es egal ob Hardware oder Software Raid.
ZFS könnte Bitfehler automatisch reparieren, jetzt kann dir ZFS nur sagen wenn Bitfehler auftreten, dann darfs du aus dem Backup restoren.
Die Performance wird so auch nicht besser.
Dein konkreter Vorschlag wäre also welcher? Kurz noch zum Setup: Es handelt sich derzeit um 32x 6 TB SAS HDDs und 4x 18 TB SATA HDDs. Es geht darum möglichst viel Speicher und eine hohe Performance zu erzielen, ohne auf Sicherheit verzichten zu müssen. Wir haben uns für das mdadm RAID5 Konzept entschieden, weil das auf genau das abzielte. Es stellt sich aber inzwischen heraus, dass bei erhöhter read/write Last, einige RAIDs Probleme machen. Habe immer wieder read/write errors im ZFS pool.
 
Dein konkreter Vorschlag wäre also welcher? Kurz noch zum Setup: Es handelt sich derzeit um 32x 6 TB SAS HDDs und 4x 18 TB SATA HDDs. Es geht darum möglichst viel Speicher und eine hohe Performance zu erzielen, ohne auf Sicherheit verzichten zu müssen. Wir haben uns für das mdadm RAID5 Konzept entschieden, weil das auf genau das abzielte.
Hohe Kapazität erfüllst du damit. Performance und Sicherheit sind aber auf der Strecke geblieben.
Ob du jetzt ein md Raid5 oder RaidZ1 machst, hat die gleiche Kapazität und beides performt nicht so doll. Mit RaidZ2 hättest du ähnlich schlechte Performance, nur etwas Kapazität verloren aber einen Riesen Gewinn bei der Sicherheit der Daten. Wenn du be Raid5 eine Disk verlierst bist du degraded unterwegs bis der Rebuild durch ist. Das kann bei großen HDDs mehrere Stunden und manchmal auch Tage dauern. Wenn in dieser Zeit hoher Last die nächste Disk ausfällt, hast du gar keine Daten mehr.
Software Raid5, egal ob md oder ZFS ist nie schnell, da um die Datenkonsistenz zu wahren, immer auf die Paritydisk gewartet werden muss. ZFS mit Special Device ist da schon ein wenig besser.
Alle 3 gewünschten Parameter gibts nur bei Hardware Raid6 mit BBWC und regelmäßigem scrubbing aktiviert.
Es stellt sich aber inzwischen heraus, dass bei erhöhter read/write Last, einige RAIDs Probleme machen. Habe immer wieder read/write errors im ZFS pool.
Kein Wunder bei Software Raid5. Das ist dem Design geschuldet. Es können fehlerhafte Sektoren der Disks sein oder einfach nur überlastet.
 
Danke für deinen input! Ich habe mir das ganze nochmal überlegt und muss dir zustimmen. Die eigentliche Idee war für den Anfang ganz gut, aber ich denke, dass es langsam Zeit wird, auf plain ZFS zu setzen, ein Hardware RAID Controller halte ich für unnötig.

Ich komme zwar langsam immer mehr ins Thema ZFS rein, aber eine Sache verstehe ich nicht: Wieso kann man ein degraded device (read/write errors) nicht einfach removen? Wieso schlägt der remove Prozess nach X Stunden fehl, eben wegen dieser read/write errors, das macht für mich keinerlei Sinn, wie soll man denn so wirklich sicher einzelne devices ohne Datenverlust entfernen.
 
Removen und removensind zwei paar Schuhe. Hast du mal ein Force probiert? Wenn ich eine defekte Disk habe, ziehe ch die einfach und stecke direkt eine neue. Per Software habe ich das noch nie getestet. ;)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!