Ausfall auf Supermicro H11DSi-NT

scaa

Renowned Member
Nov 20, 2015
147
4
83
hallo

aktuell haben wir zwei identische AMD-Server mit Probemen:
Supermicro H11DSi-NT
2x AMD EPYC 7281
Adaptec 8805 RAID Controller

einer ist gestern ausgefallen - Kein Netzwerk mehr. Auch nach Reboot nicht. Stromlos gemacht, Bios geupdated und dann lief er wieder.
Die VMs wurden sicherheitshalber auf den zweiten identischen Server gebracht - und der ist heute mit demselben Effekt abgeschmiert. Proxmox ist aktuell! Auf dem zweiten Server war das Bios noch nicht ganz aktuell. Haben wir dort auch geupdated und nun läuft er erst mal wieder - fragt sich wie lange.

Mein Kollege konnt bei heutigen Abstürz noch beiliegenden Screenshot auf der Console machen.
Gibt es irgendwelche Erkenntnisse bezüglich eine Inkompatibilität mit der Hardware?
 

Attachments

  • int_1.jpg
    int_1.jpg
    536.3 KB · Views: 36
ein Kollege hatte noch den Hinweis, dass das Paket "amd64-microcode" installiert werden sollte.
Tja... wirklich?
 
Welche Art von Speicher ist in der Hardware verbaut ? ECC RAM ? Oder nur im BIOS als ECC eingetragen ? sieht nach einem RAM Fehler aus. Evtl auch RAM Module unterschiedlicher Art gemischt ( Bsp. 2x4GB + 2x16 GB ). Nicht jedes BIOS kann eine derartige Mischadressierung fehlerfrei handeln.
 
8x Supermicro 16GB ECC REG DDR-4
DDR4 2666 RAM, 16 GB, ECC registered

Das sollte eigentlich passen.
 
Hab noch mal genau nachgesehen.
8x diese Module
 

Attachments

  • ram.png
    ram.png
    14.2 KB · Views: 17
Ich hatte mich gegen die AMD entschieden da ich wie du 8 Module nutzen wollte aber mein Distri direkt ne Info von Supermicro mit geschickt hatte das mindestens 6 Module je CPU aus stabilitätsgründen empfohlen sind. Damit war der Preisvorteil zu Intel dahin.
 
Ist das schon länger her?
Laut Handbuch sind 8 Module je CPU bei zwei CPUs kein Problem
 

Attachments

  • ram2.png
    ram2.png
    132.2 KB · Views: 10
Kann die Aussage von HBO auch bestätigen.
Unser Händler hat auch direkt von AMD abgeraten mit 8 Modulen.
Das war vor ca. 2 Monaten.
 
Das war vor 5 Monaten und betrifft wohl alle AMD Epyc Boards von Supermicro, mindestens 6 Riegel pro Board empfohlen. Klar läufts wohl auch mit deiner Konfiguration, aber so einen Hinweis bei Angebotsanfrage ist dann auch nicht ohne.
 
Aktuell laufen nur 3 VMs auf dem Host. Anbei mal die CPU-Konfig, die etwas unterschiedlich ist (weiss gar nicht mehr warum, aber ist so).
Könnte das bei der Serverkonfiguration mit 8 Riegel vielleicht auch einen Quereffekt haben?
Wie anfangs gesagt, eigentlich ist "nur" das Netzwerk ausgefallen. Wir überlegen andere NICs einzubauen, falls es wieder passiert oder aber die RAM-Riegel gegen 16 Stück zu ersetzen. Alles noch unklar...
 

Attachments

  • ram3.png
    ram3.png
    45.7 KB · Views: 11
Hi,

also das mit den Minimum 6 Riegel pro Sockel kann ich nicht bestätigen.

Macht auch m.M. nach keinen Sinn warum das so sein soll, wenn man sich die Architektur anschaut.

Des weiteren wird 6 Module pro auch nicht unterstützt. Laut AMD 4 oder 8 per Socket

https://developer.amd.com/wp-content/resources/56301_1.0.pdf

Klar die Bandbreite leidet drunter.

Was aber schon einen Unterschied macht, wo die vier gesteckt sind?

Bei uns lauft das Board stabil mit 8 Riegeln, also 4 pro Sockel.

Ist auf dem ersten Server auch schon pve-kernel-4.15.18-14-pve gelaufen?
 
Kannst du mal den Output von lscpu geben wegen der NUMA nodes.
 
Ja, auf beiden Hosts ist der aktuellste Kernel mit dem aktuellsten Proxmox:
Hier der Output von lscpu

Code:
root@host26:~# lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                64
On-line CPU(s) list:   0-63
Thread(s) per core:    2
Core(s) per socket:    16
Socket(s):             2
NUMA node(s):          8
Vendor ID:             AuthenticAMD
CPU family:            23
Model:                 1
Model name:            AMD EPYC 7281 16-Core Processor
Stepping:              2
CPU MHz:               2647.934
CPU max MHz:           2100.0000
CPU min MHz:           1200.0000
BogoMIPS:              4200.21
Virtualization:        AMD-V
L1d cache:             32K
L1i cache:             64K
L2 cache:              512K
L3 cache:              4096K
NUMA node0 CPU(s):     0-3,32-35
NUMA node1 CPU(s):     4-7,36-39
NUMA node2 CPU(s):     8-11,40-43
NUMA node3 CPU(s):     12-15,44-47
NUMA node4 CPU(s):     16-19,48-51
NUMA node5 CPU(s):     20-23,52-55
NUMA node6 CPU(s):     24-27,56-59
NUMA node7 CPU(s):     28-31,60-63
Flags:                 fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc cpuid extd_apicid amd_dcm aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_llc mwaitx cpb hw_pstate ssbd ibpb vmmcall fsgsbase bmi1 avx2 smep bmi2 rdseed adx smap clflushopt sha_ni xsaveopt xsavec xgetbv1 xsaves clzero irperf xsaveerptr arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif overflow_recov succor smca
 
Last edited:
Deine VM haben die richtige Einstellung, du kannst max 8 Cores per Socket haben.
Bei der letzten VM wären aber 1 Socket mit 2 Cores besser.

Wir haben auf den Server noch nicht den neuen Kernel.
Werde das mal probieren.
 
Dieser Kernel ist installiert:

Linux host26 4.15.18-14-pve #1 SMP PVE 4.15.18-38 (Tue, 30 Apr 2019 10:51:33 +0200) x86_64 GNU/Linux
 
Wieviel Ram verwendest du in den VMs?
 
In pos #10 hast du nur die CPU settings.
Der Ram von den einzelnen VM ist nicht dabei?
Ich will grade an unserem System die VM nachbauen.
Die VM config wäre dazu hilfreich.
 
So sorry, stimmt. Hier noch mal die Hardware-Konfig
 

Attachments

  • hard.png
    hard.png
    99 KB · Views: 17
Danke!
Werde das mal testen.
Ich melde mich, dann wenn ich was weiß.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!