[SOLVED] VE8.0 startet immer wieder neu -> mit ESXi rennt die gleiche Hardware

Oct 27, 2023
21
2
3
companyhub.io
Hallo Zusammen,

mein Server bootet immer wieder neu und ich finde keinen Grund dafür.

Hier erst einmal die Specs.

AMD 5950X
128GB DDR4 Speicher
X570 Board
2x Broadcom HBA 9400-16i
Corsair AX1600i Netzteil

8 Festplatten über die HBA im RAIDZ2 ZFS
2 2TB NVME SSDs auf dem Mainboard, noch nicht eingebunden, würde ich gerne als LOG oder CACHE im Mirror nutzen.
Dazu sollte das aktuelle Problem jedoch vorher gelöst sein.
Proxmox läuft auf 2 128GB SATA SSDs in einem RAID1 ZFS.


Sobald die Last auf die Festplatten steigt, z.b. durch ein Ubuntu Snap Nextcloud-Sync und ZFS arbeiten soll.... schmiert mir die Kiste ab.
Jemand eine Idee wo ich am besten mit der Suche beginne?


mit dmesg finde ich folgende Einträge
Bash:
mpt3sas_cm0: Trace buffer memory 2048 KB allocated
mpt3sas_cm1: Trace buffer memory 2048 KB allocated

Hier noch ergänzend Auszüge aus ZFS

Bash:
root@pve:~# zpool status -v
  pool: rpool
 state: ONLINE
config:

    NAME                                       STATE     READ WRITE CKSUM
    rpool                                      ONLINE       0     0     0
      mirror-0                                 ONLINE       0     0     0
        ata-CT120BX500SSD1_2050E4161427-part3  ONLINE       0     0     0
        ata-CT120BX500SSD1_2049E4156B1B-part3  ONLINE       0     0     0

errors: No known data errors

  pool: tank
 state: ONLINE
config:

    NAME        STATE     READ WRITE CKSUM
    tank        ONLINE       0     0     0
      raidz2-0  ONLINE       0     0     0
        sda     ONLINE       0     0     0
        sdb     ONLINE       0     0     0
        sdc     ONLINE       0     0     0
        sdd     ONLINE       0     0     0
        sde     ONLINE       0     0     0
        sdf     ONLINE       0     0     0
        sdg     ONLINE       0     0     0
        sdh     ONLINE       0     0     0

errors: No known data errors
 
Last edited:
Hier noch weitere Meldungen aus dem journal:

Bash:
Oct 27 13:53:01 pve kernel: Bluetooth: hci0: Malformed MSFT vendor event: 0x02
Oct 27 13:52:59 pve kernel: mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
Oct 27 13:52:59 pve kernel: mce: [Hardware Error]: TSC 0
Oct 27 13:52:59 pve kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1698407574 SOCKET 0 APIC 1c microcode a20120a

Hängt das aus eurer Sicht damit zusammen?

Wie gesagt, mit ESXi 8.0u2 rennt die Kiste tagelang ohne Probleme.
 
Hallo,
gibt es vielleicht noch Einträge im systemd journal welche auf den Grund des Reboots hindeuten? Bitte das journal um den Zeitraum des Reboots dumpen und als Anhang hochladen. Du kannst den Dump mittels journalctl --since <DATETIME> --until <DATETIME> > journal.txt generieren.

BItte auch eventuelle Microcode- und Firmware Updates einspielen, sowie einen ausführlichen memory test laufen lassen.
 
Da es ja ein Hardwareproblem ist, könnte es an der Firmware liegen. Habe schon öfter ähnliche Probleme gesehen, wenn Firmware und Treiber nicht zusammen passen. Der ESXi hat in der Regel ältere Treiber mitgeliefert.
 
Ohne Lese und Schreibzugriffe auf das ZFS hab ich jetzt über 2 Tage uptime.
Sobald ich aber Nextcloud wieder synchen lasse und somit Last auf die Festplatten kommt, wird die Kiste weg sein.
Jemand Ideen was ich testen kann?

Das Netzteil schließe ich aus, ich habe hier zwei AX1600i, wie wahrscheinlich kann es sein, dass beide das gleiche Problem haben?
 
Wie hoch ist denn deine RAM Auslastung? Hast du den ZFS Arc limitiert?
 
Es wurde nicht konfiguriert.

Proxmox installiert
subscription eingegeben
updates für den host
reboot
3 ubuntu 22.04 lts VMs
eine davon mit Nextcloud über snap
die anderen beiden mit cpu lästigen Diensten.

alle VM laufen ohne Probleme.
Jedoch wenn ich am Client den NC sync starte, so das die Last auf das Festplatten-System steigt. Wir reden hier aktuell von einer 1Gbit Anbindung, dann dauert es ein paar wenige Sekunden (5-20) dann schmiert mir der gesamte Proxmox Host ab und rebootet einfach.

Das ist exakt so reproduzierbar.

Die beiden 9400-16i haben die neuste Firmware bekommen.
 
noch einmal, wie hoch ist die RAM Auslastung? ZFS braucht RAM als Cache und wenn du den ZFS Arc (Cache) nicht limitierst, darf ZFS bis zu 50% des verbauten RAM nutzen. Normalerweise konsumiert er keinen RAM mehr, wenn der voll ist, aber wenn du deinen RAM schon zu 90% voll hast, könnte etwas anderes dein System zum abschmieren bringen, wenn ZFS plötzlich RAM benötigt und die Auslastung auf 100% geht.
 
RAM ist nicht das Problem.

Code:
root@pve:~# free -m
               total        used        free      shared  buff/cache   available
Mem:          128711       50158       79281          44         244       78553
Swap:              0           0           0

Spannend, ich hab heute aus "Frust" die Testing Repos genutzt und auch ZFS 2.2 damit installiert.
Anschließend die NC sync neugestartet. Er ist jetzt bei 22GB und seit ca 7 Minuten am Daten schieben.


ok, während ich am schreiben bin, jetzt is er abgeschmiert.
 
Last edited:
Wenn ich mit

dmesg -w

oder

journalctl --system -f

"zuhöre" während Nextcloud synced und er abschmiert, steht nur folgendes drin:


Code:
[ 8641.918505] mce: [Hardware Error]: Machine check events logged
[ 8641.918522] [Hardware Error]: Uncorrected, software restartable error.
[ 8641.918532] [Hardware Error]: CPU:15 (19:21:2) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
[ 8641.918551] [Hardware Error]: Error Addr: 0x000000030265cc40
[ 8641.918560] [Hardware Error]: IPID: 0x001000b000000000
[ 8641.918568] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
[ 8641.918585] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[ 8641.919050] mce: Uncorrected hardware memory error in user-access at 30265cc40
[ 8641.920157] Memory failure: 0x30265c: Sending SIGBUS to CPU 4/KVM:4762 due to hardware memory corruption
[ 8641.920190] Memory failure: 0x30265c: Sending SIGBUS to CPU 4/KVM:4762 due to hardware memory corruption
[ 8641.920212] Memory failure: 0x30265c: recovery action for dirty LRU page: Recovered

Braucht der Speichercontroller mehr Spannung am 5950 um die 128GB Ram stabil zu betreiben?
 
Ich hab jetzt mal probeweise zwei der Riegel ausgebaut.
Bisher läuft der Host noch, aber es sind erst 2 Minuten.
Wenn es jetzt ernsthaft daran lag, werde ich mit Alternate reden und schauen das ich die auf ECC Riegel tauschen kann und den Aufpreis begleiche.
 
Ich würde mal einen Memtest laufen lassen, entweder ist ein RAM Riegel defekt, oder die CPU/Sockel.
 
Code:
Oct 30 16:09:48 pve kernel: [Hardware Error]: Uncorrected, software restartable error.
Oct 30 16:09:48 pve kernel: mce: Kernel accessed poison in user space at 3501ecfc0
Oct 30 16:09:48 pve kernel: [Hardware Error]: CPU:31 (19:21:2) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
Oct 30 16:09:48 pve kernel: [Hardware Error]: Error Addr: 0x00000003501ecfc0
Oct 30 16:09:48 pve kernel: [Hardware Error]: IPID: 0x001000b000000000
Oct 30 16:09:48 pve kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
Oct 30 16:09:48 pve kernel: [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Oct 30 16:09:48 pve kernel: mce: [Hardware Error]: Machine check events logged
Oct 30 16:09:48 pve kernel: [Hardware Error]: Uncorrected, software restartable error.
Oct 30 16:09:48 pve kernel: [Hardware Error]: CPU:31 (19:21:2) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
Oct 30 16:09:49 pve kernel: [Hardware Error]: Error Addr: 0x00000003501ecfc0
Oct 30 16:09:49 pve kernel: [Hardware Error]: IPID: 0x001000b000000000
Oct 30 16:09:49 pve kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
Oct 30 16:09:49 pve kernel: [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Oct 30 16:09:49 pve kernel: Memory failure: 0x3501ec: Sending SIGBUS to kvm:4521 due to hardware memory corruption
Oct 30 16:09:49 pve kernel: Memory failure: 0x3501ec: recovery action for dirty LRU page: Recovered

Das seh ich immer wieder. Klingt nach CPU?
 
Poisoning klingt eher nach RAM. Welches X570 Board verwendest Du denn? Sind da ggf. irgendwelche Auto Overclocking Settings wie DOCP aktiv?
 
Also es sind jetzt 128GB ECC 3200er Speicher verbaut. Kiste läuft bisher seit 13 Minuten.
Ich berichte ob das irgendwas geändert hat.

Nextcloud sync rennt auch aktiv, damit genau das Szenario welches zum Absturz führte provoziert wird.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!