Ausfall auf Supermicro H11DSi-NT

Es gab noch eine 4. und 5. VM die auf dem Host lief, als die Ausfälle waren. Die habe ich hier gelistet. Sind aktuell nicht mehr aktiv, sondern umgezogen.
Alles Debian-Stretchserver. Bei der oberen VM (mit 6 GB RAM) gab es die Besonderheit das dort 11 IPs (öffentlich) auf net0 aufgeschaltet waren. Eventuell hat das eine Bedeutung, denn offenbar ist ja das Netzwerk ausgefallen. Übr IPMI sind wir noch auf die Konsole des Hosts gekommen, aber es gab kein Netzwerk mehr.
 

Attachments

  • hard2.png
    hard2.png
    96.2 KB · Views: 6
At the moment I can't reproduce it.

Another guess.
Do you use ZFS as rpool on these nodes?
Because if so the swap partition on the rpoool can make troubles.
 
Nein, wir setzen ein:
Adaptec 8805 RAID Controller
4x Samsung SM883 SSD 960GB im Raid-10
2x Seagate Enterprise Capacity ST4000NM0125 im Raid-1
 
Hier wird Speicher "frei" gemeldet;
upload_2019-5-10_22-56-40.png
und bei dem Versuch, diesen zu belegen, .......

Hardware Konflikt (defekt? ) möglich ?

Mal einfaches testen:
1. ) Wir können ja den speicher mal testen:
apt install memtester
memtester <128GB>

2.) das system auf Shared interrupts prüfen
lspci -vvv
cat /proc/interrupts

3.) adress ranges der PCI Hardware bestimmen und die Treiber mit den zugehörigen Optionen laden
lspci -vvv
in /etc/initramfs-tools/modules
eintragen
bsp: "vfio_pci ids=8086:153a"
( update-initramfs -u)
 
Aktuell ist der Server im Produktiveinsatz. Wie im ersten Posting geschildert gibt es zwei identische Server und bei beiden ist das Problem aufgetaucht. Der erste lief bereits einige Monate problemlos, dann der erste Ausfall. Ein Reset hat geholft... nach 11 Tagen dann aber dasselbe Spiel. Reset hat nicht mehr geholfen, Netzwerk blieb tod. Daher dann stromlos gemacht, Bios wurde geupdated. Server lief danach. Sicherheitshalter wurden die VMs aber umgezogen auf den zweiten identischen Server (dort noch altes Bios). Nach einem Tag dort dann derselbe Ausfall. Dort dann auch Bios geupdated und läuft gerade wieder. Allerdings wurden zwei der aktiven VMs entfernt unf auf andere Hosts übertragen.
Nächste Woche kann ich den ersten Server mal mit den genannten Methoden prüfen. Aktuell gehts gerade nicht....
 
Der Server war unter Volllast am Wochenende (Netzwerk und CPU) stabil .
Ich verwende aber hier die 1.2 Version des BIOS vielleicht ist das Bios das Problem.
Das würde auch besser passen als Defekte Hardware, da es ja auf zwei Servern auftaucht.
 
Ja das hoffen wir auch. Bios 1.2 ist ja auch bei uns drauf gekommen und bislang läuft es.
 
Wir haben ja zwei dieser AMD-Server als Proxmox Host. Der zweite ist ein Ersatzserver - leer. Beide Server haben dasslbe aktuelle Bios.
Nach den Problemen auf dem einen Host, hatten wir alle Accounts auf den zweiten leeren Host umgezogen.
Nun ist es auch dort passiert. Zuerst war das lokale Netzwerk weg und beim Versuch der Netzwerk zu starten (auf der IPMI-Console), wurde ein harter Reset ausgelöst. Server bootete neu und danach war das gesamte Netzwerk tod, lokal und öffentlich (die beiden Netzwerkarten des Mainboards).

Als ich mit beim Ausfall des lokalen Netzwerks auf der IPMI-Console anmelden konnte war noch dies zu sehen:
Vielleicht kann jemdand was damit anfangen.
Es läuft noch ein Proxmox 5.4




Code:
# pveversion --verbose
proxmox-ve: 5.4-2 (running kernel: 4.15.18-27-pve)
pve-manager: 5.4-13 (running version: 5.4-13/aee6f0ec)
pve-kernel-4.15: 5.4-16
pve-kernel-4.15.18-27-pve: 4.15.18-55
pve-kernel-4.15.18-14-pve: 4.15.18-39
pve-kernel-4.15.18-13-pve: 4.15.18-37
pve-kernel-4.15.18-11-pve: 4.15.18-34
pve-kernel-4.15.18-10-pve: 4.15.18-32
corosync: 2.4.4-pve1
criu: 2.11.1-1~bpo90
glusterfs-client: 3.8.8-1
ksm-control-daemon: 1.2-2
libjs-extjs: 6.0.1-2
libpve-access-control: 5.1-12
libpve-apiclient-perl: 2.0-5
libpve-common-perl: 5.0-56
libpve-guest-common-perl: 2.0-20
libpve-http-server-perl: 2.0-14
libpve-storage-perl: 5.0-44
libqb0: 1.0.3-1~bpo9
lvm2: 2.02.168-pve6
lxc-pve: 3.1.0-7
lxcfs: 3.0.3-pve1
novnc-pve: 1.0.0-3
proxmox-widget-toolkit: 1.0-28
pve-cluster: 5.0-38
pve-container: 2.0-41
pve-docs: 5.4-2
pve-edk2-firmware: 1.20190312-1
pve-firewall: 3.0-22
pve-firmware: 2.0-7
pve-ha-manager: 2.0-9
pve-i18n: 1.1-4
pve-libspice-server1: 0.14.1-2
pve-qemu-kvm: 3.0.1-4
pve-xtermjs: 3.12.0-1
qemu-server: 5.0-55
smartmontools: 6.5+svn4324-1
spiceterm: 3.0-5
vncterm: 1.5-3
zfsutils-linux: 0.7.13-pve1~bpo2


# lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                64
On-line CPU(s) list:   0-63
Thread(s) per core:    2
Core(s) per socket:    16
Socket(s):             2
NUMA node(s):          8
Vendor ID:             AuthenticAMD
CPU family:            23
Model:                 1
Model name:            AMD EPYC 7281 16-Core Processor
Stepping:              2
CPU MHz:               2499.408
CPU max MHz:           2100.0000
CPU min MHz:           1200.0000
BogoMIPS:              4199.41
Virtualization:        AMD-V
L1d cache:             32K
L1i cache:             64K
L2 cache:              512K
L3 cache:              4096K
NUMA node0 CPU(s):     0-3,32-35
NUMA node1 CPU(s):     4-7,36-39
NUMA node2 CPU(s):     8-11,40-43
NUMA node3 CPU(s):     12-15,44-47
NUMA node4 CPU(s):     16-19,48-51
NUMA node5 CPU(s):     20-23,52-55
NUMA node6 CPU(s):     24-27,56-59
NUMA node7 CPU(s):     28-31,60-63
Flags:                 fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc cpuid extd_apicid amd_dcm aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_llc mwaitx cpb hw_pstate ssbd ibpb vmmcall fsgsbase bmi1 avx2 smep bmi2 rdseed adx smap clflushopt sha_ni xsaveopt xsavec xgetbv1 xsaves clzero irperf xsaveerptr arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif overflow_recov succor smca
 

Attachments

  • bild.png
    bild.png
    207 KB · Views: 7

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!