[SOLVED] VE8.0 startet immer wieder neu -> mit ESXi rennt die gleiche Hardware

snkb · Oct 27, 2023

Hallo Zusammen,

mein Server bootet immer wieder neu und ich finde keinen Grund dafür.

Hier erst einmal die Specs.

AMD 5950X
128GB DDR4 Speicher
X570 Board
2x Broadcom HBA 9400-16i
Corsair AX1600i Netzteil

8 Festplatten über die HBA im RAIDZ2 ZFS
2 2TB NVME SSDs auf dem Mainboard, noch nicht eingebunden, würde ich gerne als LOG oder CACHE im Mirror nutzen.
Dazu sollte das aktuelle Problem jedoch vorher gelöst sein.
Proxmox läuft auf 2 128GB SATA SSDs in einem RAID1 ZFS.

Sobald die Last auf die Festplatten steigt, z.b. durch ein Ubuntu Snap Nextcloud-Sync und ZFS arbeiten soll.... schmiert mir die Kiste ab.
Jemand eine Idee wo ich am besten mit der Suche beginne?

mit dmesg finde ich folgende Einträge

Bash:

mpt3sas_cm0: Trace buffer memory 2048 KB allocated
mpt3sas_cm1: Trace buffer memory 2048 KB allocated

Hier noch ergänzend Auszüge aus ZFS

Bash:

root@pve:~# zpool status -v
  pool: rpool
 state: ONLINE
config:

    NAME                                       STATE     READ WRITE CKSUM
    rpool                                      ONLINE       0     0     0
      mirror-0                                 ONLINE       0     0     0
        ata-CT120BX500SSD1_2050E4161427-part3  ONLINE       0     0     0
        ata-CT120BX500SSD1_2049E4156B1B-part3  ONLINE       0     0     0

errors: No known data errors

  pool: tank
 state: ONLINE
config:

    NAME        STATE     READ WRITE CKSUM
    tank        ONLINE       0     0     0
      raidz2-0  ONLINE       0     0     0
        sda     ONLINE       0     0     0
        sdb     ONLINE       0     0     0
        sdc     ONLINE       0     0     0
        sdd     ONLINE       0     0     0
        sde     ONLINE       0     0     0
        sdf     ONLINE       0     0     0
        sdg     ONLINE       0     0     0
        sdh     ONLINE       0     0     0

errors: No known data errors

snkb · Oct 27, 2023

Hier noch weitere Meldungen aus dem journal:

Bash:

Oct 27 13:53:01 pve kernel: Bluetooth: hci0: Malformed MSFT vendor event: 0x02
Oct 27 13:52:59 pve kernel: mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
Oct 27 13:52:59 pve kernel: mce: [Hardware Error]: TSC 0
Oct 27 13:52:59 pve kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1698407574 SOCKET 0 APIC 1c microcode a20120a

Hängt das aus eurer Sicht damit zusammen?

Wie gesagt, mit ESXi 8.0u2 rennt die Kiste tagelang ohne Probleme.

Chris · Oct 27, 2023

Hallo,
gibt es vielleicht noch Einträge im systemd journal welche auf den Grund des Reboots hindeuten? Bitte das journal um den Zeitraum des Reboots dumpen und als Anhang hochladen. Du kannst den Dump mittels journalctl --since <DATETIME> --until <DATETIME> > journal.txt generieren.

BItte auch eventuelle Microcode- und Firmware Updates einspielen, sowie einen ausführlichen memory test laufen lassen.

Falk R. · Oct 27, 2023

Da es ja ein Hardwareproblem ist, könnte es an der Firmware liegen. Habe schon öfter ähnliche Probleme gesehen, wenn Firmware und Treiber nicht zusammen passen. Der ESXi hat in der Regel ältere Treiber mitgeliefert.

snkb · Oct 27, 2023

memtest32 lieft komplett fehlerfrei durch.

Im Anhang das journal aus der Zeit vom letzten crash.

snkb · Oct 29, 2023

Ohne Lese und Schreibzugriffe auf das ZFS hab ich jetzt über 2 Tage uptime.
Sobald ich aber Nextcloud wieder synchen lasse und somit Last auf die Festplatten kommt, wird die Kiste weg sein.
Jemand Ideen was ich testen kann?

Das Netzteil schließe ich aus, ich habe hier zwei AX1600i, wie wahrscheinlich kann es sein, dass beide das gleiche Problem haben?

Falk R. · Oct 30, 2023

Wie hoch ist denn deine RAM Auslastung? Hast du den ZFS Arc limitiert?

snkb · Oct 30, 2023

Es wurde nicht konfiguriert.

Proxmox installiert
subscription eingegeben
updates für den host
reboot
3 ubuntu 22.04 lts VMs
eine davon mit Nextcloud über snap
die anderen beiden mit cpu lästigen Diensten.

alle VM laufen ohne Probleme.
Jedoch wenn ich am Client den NC sync starte, so das die Last auf das Festplatten-System steigt. Wir reden hier aktuell von einer 1Gbit Anbindung, dann dauert es ein paar wenige Sekunden (5-20) dann schmiert mir der gesamte Proxmox Host ab und rebootet einfach.

Das ist exakt so reproduzierbar.

Die beiden 9400-16i haben die neuste Firmware bekommen.

Falk R. · Oct 30, 2023

noch einmal, wie hoch ist die RAM Auslastung? ZFS braucht RAM als Cache und wenn du den ZFS Arc (Cache) nicht limitierst, darf ZFS bis zu 50% des verbauten RAM nutzen. Normalerweise konsumiert er keinen RAM mehr, wenn der voll ist, aber wenn du deinen RAM schon zu 90% voll hast, könnte etwas anderes dein System zum abschmieren bringen, wenn ZFS plötzlich RAM benötigt und die Auslastung auf 100% geht.

snkb · Oct 30, 2023

RAM ist nicht das Problem.

Code:

root@pve:~# free -m
               total        used        free      shared  buff/cache   available
Mem:          128711       50158       79281          44         244       78553
Swap:              0           0           0

Spannend, ich hab heute aus "Frust" die Testing Repos genutzt und auch ZFS 2.2 damit installiert.
Anschließend die NC sync neugestartet. Er ist jetzt bei 22GB und seit ca 7 Minuten am Daten schieben.

ok, während ich am schreiben bin, jetzt is er abgeschmiert.

Falk R. · Oct 30, 2023

was steht denn als letztes im Kernel Log?

snkb · Oct 30, 2023

Wenn ich mit

dmesg -w

oder

journalctl --system -f

"zuhöre" während Nextcloud synced und er abschmiert, steht nur folgendes drin:

Code:

[ 8641.918505] mce: [Hardware Error]: Machine check events logged
[ 8641.918522] [Hardware Error]: Uncorrected, software restartable error.
[ 8641.918532] [Hardware Error]: CPU:15 (19:21:2) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
[ 8641.918551] [Hardware Error]: Error Addr: 0x000000030265cc40
[ 8641.918560] [Hardware Error]: IPID: 0x001000b000000000
[ 8641.918568] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
[ 8641.918585] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[ 8641.919050] mce: Uncorrected hardware memory error in user-access at 30265cc40
[ 8641.920157] Memory failure: 0x30265c: Sending SIGBUS to CPU 4/KVM:4762 due to hardware memory corruption
[ 8641.920190] Memory failure: 0x30265c: Sending SIGBUS to CPU 4/KVM:4762 due to hardware memory corruption
[ 8641.920212] Memory failure: 0x30265c: recovery action for dirty LRU page: Recovered

Braucht der Speichercontroller mehr Spannung am 5950 um die 128GB Ram stabil zu betreiben?

snkb · Oct 30, 2023

Ich hab jetzt mal probeweise zwei der Riegel ausgebaut.
Bisher läuft der Host noch, aber es sind erst 2 Minuten.
Wenn es jetzt ernsthaft daran lag, werde ich mit Alternate reden und schauen das ich die auf ECC Riegel tauschen kann und den Aufpreis begleiche.

Falk R. · Oct 30, 2023

Ich würde mal einen Memtest laufen lassen, entweder ist ein RAM Riegel defekt, oder die CPU/Sockel.

snkb · Oct 30, 2023

Code:

Oct 30 16:09:48 pve kernel: [Hardware Error]: Uncorrected, software restartable error.
Oct 30 16:09:48 pve kernel: mce: Kernel accessed poison in user space at 3501ecfc0
Oct 30 16:09:48 pve kernel: [Hardware Error]: CPU:31 (19:21:2) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
Oct 30 16:09:48 pve kernel: [Hardware Error]: Error Addr: 0x00000003501ecfc0
Oct 30 16:09:48 pve kernel: [Hardware Error]: IPID: 0x001000b000000000
Oct 30 16:09:48 pve kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
Oct 30 16:09:48 pve kernel: [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Oct 30 16:09:48 pve kernel: mce: [Hardware Error]: Machine check events logged
Oct 30 16:09:48 pve kernel: [Hardware Error]: Uncorrected, software restartable error.
Oct 30 16:09:48 pve kernel: [Hardware Error]: CPU:31 (19:21:2) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
Oct 30 16:09:49 pve kernel: [Hardware Error]: Error Addr: 0x00000003501ecfc0
Oct 30 16:09:49 pve kernel: [Hardware Error]: IPID: 0x001000b000000000
Oct 30 16:09:49 pve kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
Oct 30 16:09:49 pve kernel: [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Oct 30 16:09:49 pve kernel: Memory failure: 0x3501ec: Sending SIGBUS to kvm:4521 due to hardware memory corruption
Oct 30 16:09:49 pve kernel: Memory failure: 0x3501ec: recovery action for dirty LRU page: Recovered

Das seh ich immer wieder. Klingt nach CPU?

cwt · Oct 31, 2023

Poisoning klingt eher nach RAM. Welches X570 Board verwendest Du denn? Sind da ggf. irgendwelche Auto Overclocking Settings wie DOCP aktiv?

snkb · Oct 31, 2023

Asus Crosshair 8 Formula

Für den RAM ist DOCP geladen, aber ohne optimized settings, heißt er lädt nur das XMP-Profil.

Heute kommt der ECC Ram von Alternate, werde damit neu testen.

snkb · Oct 31, 2023

Also es sind jetzt 128GB ECC 3200er Speicher verbaut. Kiste läuft bisher seit 13 Minuten.
Ich berichte ob das irgendwas geändert hat.

Nextcloud sync rennt auch aktiv, damit genau das Szenario welches zum Absturz führte provoziert wird.

snkb · Oct 31, 2023

Problem scheint behoben.
ECC RAM war wohl notwendig damit alles sauber läuft.
Sollte es wider erwarten anders sein, melde ich mich.
Danke für die Unterstützung der einzelnen hier.

[SOLVED] VE8.0 startet immer wieder neu -> mit ESXi rennt die gleiche Hardware

New Member

New Member

Proxmox Staff Member

Distinguished Member

New Member

Attachments

New Member

Distinguished Member

New Member

Distinguished Member

New Member

Distinguished Member

New Member

New Member

Distinguished Member

New Member

Well-Known Member

New Member

New Member

New Member

We value your privacy