[SOLVED] Server crasht und rebootet

showiproute

Well-Known Member
Mar 11, 2020
615
32
48
36
Austria
Hallo zusammen,

ich habe seit heute das Problem, dass mein Proxmox abstürzt und neu startet.
Im Syslog finde ich keine interessanten Infos:

Code:
Apr 14 21:13:01 proxmox1 systemd[1]: pvesr.service: Succeeded.
Apr 14 21:13:01 proxmox1 systemd[1]: Started Proxmox VE replication runner.
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^$Apr 14 21:18:44 proxmox1 blkmapd[649]: open pipe file /run/rpc_pipefs/nfs/blocklayout failed: No such file or directory
Apr 14 21:18:44 proxmox1 systemd-modules-load[631]: Inserted module 'vfio'


Also ist das System irgendwann kurz nach 21:13 Uhr abgestürzt und hat um 21:18 Uhr wieder gebootet.


Ist mir heute schon zum vierten Mal passiert, ohne dass ich hier irgendetwas ungewöhnliches getan hätte?!


Mein System wäre wie folgt (Custom build):
CPU: AMD Epyc 7252 (8C/16T)
Memory: 128 GB DDR4 ECC RAM
Mainboard: Supermicro H12SSL-CT
Additional Storagecard: Supermicro AOC-S3008L-L8e (HBA-mode)


Gibt's irgendwo etwas, dass ich noch checken könnte?
 
Memtest86 kannst du auch mal vom USB-Stick booten und über Nacht laufen lassen. Wenn bei mir das OS crasht dann ist fast immer defekter RAM schuld.
 
Ich möchte den Teufel nicht an die Wand malen, aber der RAM ist an und für sich brand neu - den Server habe ich erst vergangen Freitag zusammengebaut und in Betrieb genommen.
 
Kann trotzdem defekt sein. Ich lasse Mentest86 immer mit als Erstes laufen, wenn ich einen neuen Rechner zusammengebaut habe. Je mehr RAM Riegel du in den Rechner steckst, desto höher die Chance, dass die RAM-Riegel nicht zusammen harmonieren. Selbst bei gleicher Modellbezeichnung können sich die verbauten Bauteile unterscheiden und in Kombination Instabilitäten verursachen. Oder das Binning war einfach nicht sehr gut und einer der Riegel macht schon bei viel niedrigeren Taktraten Probleme.
Mal testen kostet ja nichts.

Ein Burnin-Test mache ich auch immer nach dem Zusammenbau. Also mit Prime95 einmal CPU und RAM voll auslasten und parallel noch etwas laufen lassen was die GPU maximal auslastet (FurMark unter Windows z.B.). Wenn die Stromversorgung und Kühlung das über eine Nacht mitmacht, dann man sicher sein, dass das normale Nutzung den Rechner auch nicht überlasten sollte.

Und hast du das BIOS und IPMI schon aktualisiert? Supermicro updatet da sehr regelmäßig für den Support von neuer Hardware und um Sicherheutslücken zu schließen.
 
Last edited:
Ich lasse jetzt gerade Memtest86 vom USB Stick laufen - bisweilen 58 % durch ohne Fehler/Probleme.

Die Firmwareupdates habe ich gleich zu Beginn geprüft, die waren aber schon von Haus aus auf der modernsten Version.

Was mir noch in den Sinn käme: QLC SSD. Hier hatte ZFS auf der alten Serverkonfiguration immer Fehler ausgegeben. Beim neuen macht er das nicht mehr.
Eventuell liegt dort der Hund begraben?!
 
neue Vermutung, der SAS-Chip auf dem PCIe-Storagecontroller wird zu warm.
Ich habe bei mir im Server noch großzügig 40mm Lüfter auf alles draufgeschraubt, was irgendwie einen passiven Kühlkörper hat (z.B. der Chip auf dem HBA, Chipsatz vom Mainboard, Chip der NICs etc). Ob das wirklich nötig ist weiß ich nicht, aber durch einen Server weht ja normal ein halber Orkan und alles an Hardware ist auch so gedreht, dass da nichts den Luftzug von vorne nach hinten stört. Da haben Komponenten dann ja oft keinen eigenen Lüfter, weil sie sich darauf verlassen, dass da das Servergehäuse schon für genug Wind sorgt.
Da wollte ich dann mit den zusätzlichen 40mm-Lüftern nochmal auf Nummer sicher gehen, da bei mir im Case nur langsame leise Lüfter stecken die nicht wirklich groß zur Kühlung von Komponenten beitragen.

Was hast du für ein Netzteil gekauft? Das ist bei mir meistens das andere Problem, wenn es nicht der RAM ist.
Mein Supermicro Board wollte mit einem 400W BeQuiet 80+ Gold Netzteil z.B. garnicht erst anspringen. Das musste ich dann leider wieder zurückschicken und weiter das 900W Supermicro Netzteil nutzen. Das Bequiet hatte genug Power (so 120W braucht mein Server normal nur) und ich hatte auch alle Kabel angeschlossen.
 
Ich habe gerade auf Reddit nachgefragt, wie ich mir am ehesten so einen Lüfter auf eine PCIe Karte installieren könnte?
Nehme natürlich auch gerne Vorschläge hier entgegen.

Was ist soweit gemacht habe: Neue Gehäuselüfter von Noctua geordert, da die etwas besser wären:
https://noctua.at/de/nf-a14-industrialppc-3000-pwm

Bezüglich Netzteil: Habe hier ein 650W Teil -> "Be Quiet! Straight Power 11 Platinum 650W"
Ich hoffe doch, dass das genügt.
 
Ich habe gerade auf Reddit nachgefragt, wie ich mir am ehesten so einen Lüfter auf eine PCIe Karte installieren könnte?
Nehme natürlich auch gerne Vorschläge hier entgegen.
Oft geht es wenn man einfach 2 oder 4 kleine Blechschrauben aus dem Baumarkt holt. Da braucht man auch keine extra Bohrungen im Kühlkörper für etc. Einfach die Schrauben durch die Lüfterecken direkt in die Finnen/Stäbe vom Kühlkörper schrauben. Die Blechschrauben schneiden und verkeilen sich dann im Kühlkörper und das ganze sitzt bombenfest. Man muss halt nur welche holen, wo Länge und Durchmesser auch passen. Nur gucken, dass das auch wirklich fest sitzt. Nicht das sich da die Schrauben später von selbst durch die Vibrationen lösen, die schrauben rausfallen und dann irgendwo einen Kurzschluss verursachen.
Als Lüfter hab ich "BlackSilent Fan XM-1 - 40mm" genommen. Die sind schön leise und waren auch nur 5€ glaube ich. Wenn Lautstärke kein Problem ist würde ich da aber auch eher etwas kräftigeres nehmen.
Hier habe ich das einmal mit den Kühlkörper von der M.2 Addon-Karte gemacht und dann noch mit dem Chipsatz vom Mainboard:
4.jpg3.jpg5.jpg
 
Last edited:
  • Like
Reactions: showiproute
laut IPMI Log (da lässt sich jetzt zum Glück etwas auffinden) wäre der Fehler
2021-04-15 19:16:17Critical InterruptPCI SERR @Bus47 (DevFn01) - AssertionSensor-specific
2021-04-15 19:16:17Critical InterruptPCI SERR @Bus47 (DevFn00) - AssertionSensor-specific

Laut Proxmox wäre der 47er PCIe Bus der NIC
Code:
47:00.0 Ethernet controller: Broadcom Limited BCM57416 NetXtreme-E 10GBase-T RDMA Ethernet Controller (rev 01)
47:00.1 Ethernet controller: Broadcom Limited BCM57416 NetXtreme-E 10GBase-T RDMA Ethernet Controller (rev 01)
 
Last edited:
Hast du schon versucht die Firmware der NIC zu aktualisieren? Bei 10Gbit NICs kann man eigentlich über Tools vom Hersteller die Firmware flashen.
Ist die NIC onboard oder extern?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!