Host freezt komplett

Badrig · Jan 23, 2024

Liebe alle,
ich habe zwei NUC 12 Pro als Cluster mit identischer Ausstattung: i3-1220P, 64GB DDR4, 2TB Kingston DC600M, ZFS, Proxmox 8.1.4
Es laufen einige alte Virtuelle Maschinen und Container, die ich bereits auf den neuen Cluster umgezogen habe -- problemlos.

Seit ich aber einen paperless-ngx Container (mit Docker in LXC) laufen hatte beobachtete ich, dass sich einer der Nodes alle 1-2 Tage komplett aufhing, gar nicht mehr erreichbar war und nur ein Reset über den Power-Knopf half. Die Uhrzeiten sind
Nach Recherche merkte ich, dass Docker in LXC ne dumme Idee ist und dachte, das sei die Ursache.... Nun habe ich paperless mit dem "Proxmox Helper Script" ohne Docker aufgesetzt und nun ist es wieder. Der Gedanke lag nahe, dass es an paperless liegt, also habe ich den Container gelöscht und ein paar andere probehalber eingerichtet (heimfall, wireguard, grocy, stirling-pdf). Wieder hängt sich der Node auf, auf dem die Container laufen (Mittlerweile sind alle alten VM/CT auf einem Node und die neuen zum Experimentieren auf dem anderen, damit mir nicht jedes mal meine produktiven VM/CT migriert werden...)
Alle Container basieren auf Debian 12 (außer wireguard: Debian 11). Die neuen Container müssen noch nicht mal laufen, damit es passiert.

Was ich bereits probiert hatte:

VM/CT auf den Nodes komplett auswechseln -> Dann passiert der Freeze auf dem jeweils anderen Node, Hardware schließe ich daher aus.
Dennoch habe ich BIOS Updates gemacht und RAM getestet, alles fein. Temperaturen geprüft, manuell runtergetaktet, alles gut. Kein Unterschied.
Systemlogs durchgesehen, keine Errata, für mich nichts auffälliges, es stoppt einfach mittendrin (unten das Log)
Container Optionen (keyctl, priviligiert/unpriviligiert) machen keinen Unterschied.
Docker komplett rausgeschmissen. Gleiches Ergebnis.
Test-Repository aktiviert und Proxmox aktualisiert, falls es evtl. ein bekannter Bug ist, der schon wieder gefixt ist. Leider nein.

Habt ihr irgendeine Idee woran es liegen könnte, irgendwas an der Kombination neue LXC Container auf Debian-Basis auf ZFS mit HA?

Hier die letzten zehn Minuten des letzten Freezes:

cheiss · Jan 23, 2024

Hi,

könntest du mal den Output von pveversion -v und lshw -c network posten?
lshw ist bei default nicht vorinstalliert, kann aber einfach mit apt install lshw nachgezogen werden.

Eventuell hängt sich die Node per se nicht auf, sondern der Netzwerktreiber macht Probleme - und dann wäre die Maschine übers Netzwerk auch schon nicht mehr erreichbar.
Vorallem der r8168 Treiber ist bekannt, solche Probleme zu machen (z.B. hier im Forum findet man auch mehr als genug Post darüber).

Badrig · Jan 23, 2024

Ich habe dazu vergessen zu erwähnen, dass ich lokal Zugriff auf die Nodes habe. Sie reagieren auch über Tastatur nicht mehr und das Monitorbild flackert grün/lila oder bleibt ganz schwarz (daher war mein erster Tipp auch eher die Hardware).
Um Netzwerkprobleme auszuschließen (der i225 ist ja auch bekannt für 2,5gbit Probleme) hatte ich ihn manuell auf 1gbit eingestellt. Ohne Änderungen.
Mein nächster Tipp wäre das Debian Template, weil meine alten Container, die keine Probleme verursachen, auf Ubuntu-Basis sind.

Trotzdem hier die Ausgaben:

Code:

root@pve2:~# lshw -c network
  *-network              
       description: Ethernet interface
       product: Ethernet Controller I225-V
       vendor: Intel Corporation
       physical id: 0
       bus info: pci@0000:71:00.0
       logical name: enp113s0
       version: 03
       serial: 48:21:0b:xx:xx:xx
       capacity: 1Gbit/s
       width: 32 bits
       clock: 33MHz
       capabilities: pm msi msix pciexpress bus_master cap_list ethernet physical tp 10bt 10bt-fd 100bt 100bt-fd 1000bt-fd autonegotiation
       configuration: autonegotiation=on broadcast=yes driver=igc driverversion=6.5.11-7-pve duplex=full firmware=1085:8770 latency=0 link=yes multicast=yes port=twisted pair
       resources: irq:16 memory:84200000-842fffff memory:84300000-84303fff
  *-network
       description: Ethernet interface
       physical id: 6
       logical name: en05
       serial: 02:68:8e:xx:xx:xx
       capabilities: ethernet physical
       configuration: broadcast=yes driver=thunderbolt-net driverversion=6.5.11-7-pve ip=192.168.0.2 multicast=yes

Code:

root@pve2:~# pveversion -v
proxmox-ve: 8.1.0 (running kernel: 6.5.11-7-pve)
pve-manager: 8.1.4 (running version: 8.1.4/ec5affc9e41f1d79)
proxmox-kernel-helper: 8.1.0
proxmox-kernel-6.5: 6.5.11-7
proxmox-kernel-6.5.11-7-pve-signed: 6.5.11-7
proxmox-kernel-6.5.11-4-pve-signed: 6.5.11-4
ceph-fuse: 17.2.7-pve1
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx8
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.0
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.3
libpve-access-control: 8.0.7
libpve-apiclient-perl: 3.3.1
libpve-common-perl: 8.1.0
libpve-guest-common-perl: 5.0.6
libpve-http-server-perl: 5.0.5
libpve-network-perl: 0.9.5
libpve-rs-perl: 0.8.8
libpve-storage-perl: 8.0.5
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 5.0.2-4
lxcfs: 5.0.3-pve4
novnc-pve: 1.4.0-3
proxmox-backup-client: 3.1.2-1
proxmox-backup-file-restore: 3.1.2-1
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.4
proxmox-widget-toolkit: 4.1.3
pve-cluster: 8.0.5
pve-container: 5.0.8
pve-docs: 8.1.3
pve-edk2-firmware: 4.2023.08-3
pve-firewall: 5.0.3
pve-firmware: 3.9-1
pve-ha-manager: 4.0.3
pve-i18n: 3.2.0
pve-qemu-kvm: 8.1.2-6
pve-xtermjs: 5.3.0-3
qemu-server: 8.0.10
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.2-pve1

cheiss · Jan 23, 2024

Badrig said:
Ich habe dazu vergessen zu erwähnen, dass ich lokal Zugriff auf die Nodes habe. Sie reagieren auch über Tastatur nicht mehr und das Monitorbild flackert grün/lila oder bleibt ganz schwarz (daher war mein erster Tipp auch eher die Hardware).

Achso, schließt zumindest die Netzwerktreiber mal aus. Klingt aber tatsächlich nach einem Hardware-Problem.

Badrig said:
Mein nächster Tipp wäre das Debian Template, weil meine alten Container, die keine Probleme verursachen, auf Ubuntu-Basis sind.

Sollte eigentlich auch keinen Unterschied machen bzw. wenn sich die ganze Maschine tatsächlich aufhängt .. zumal das ja auch passiert, wenn die nicht laufen, wie du sagtest.

Da memtest86+ auch sauber durchläuft, liegt meine Vermutung tatsächlich bei einem Hardware-Defekt vom Mainboard o.ä.

Was du aber auf jeden noch probieren kann, ist mal den 6.2 kernel nachzuinstallieren (apt install proxmox-kernel-6.2, reinbooten und schauen, ob damit das auch passiert. Das würde dann ein Software-Problem dann praktisch ausschließen.

Badrig said:
ich habe zwei NUC 12 Pro als Cluster

Wenn du wirklich nur zwei Nodes im Cluster hast - ist ein QDevice konfiguriert? Cluster mit zwei Nodes geht aufgrund des Quorums nie gut aus.

Badrig · Jan 23, 2024

cheiss said:
Da memtest86+ auch sauber durchläuft, liegt meine Vermutung tatsächlich bei einem Hardware-Defekt vom Mainboard o.ä.

Dann wären beide Nodes von Haus aus defekt. Das halte ich schon auch für höchst unwahrscheinlich.
Der Fehler lässt sich ja auf dem andern Node reproduzieren, wenn ich die neuen Container dorthin schiebe.

cheiss said:
Was du aber auf jeden noch probieren kann, ist mal den 6.2 kernel nachzuinstallieren (apt install proxmox-kernel-6.2, reinbooten und schauen, ob damit das auch passiert. Das würde dann ein Software-Problem dann praktisch ausschließen.

Probier ich aus!

cheiss said:
Wenn du wirklich nur zwei Nodes im Cluster hast - ist ein QDevice konfiguriert? Cluster mit zwei Nodes geht aufgrund des Quorums nie gut aus.

Na klar!

Badrig · Jan 23, 2024

6.2 bekomme ich wegen ZFS nicht gebootet

Badrig · Jan 24, 2024

Auch ein einzelner leerer Ubuntu Container führt zu einem Freeze.

Zusammengefasst: Jeder neue Container lässt den jeweiligen Node freezen. Hardware würde ich ausschließen, da es auf beiden Geräten den gleichen Fehler verursacht. Alte Container haben das Problem nicht. Daher tippe ich auf ein Problem beim Container Erstellen, evtl wegen ZFS?

Ein Unterschied zu den alten Containern ist die aktivierte Nesting Option. Ich probiere es jetzt noch mit einem Container ohne Nesting, vielleicht liegt es daran.

Badrig · Jan 25, 2024

Auch ohne Nesting hängt er sich nach ca. einem Tag auf.

Ich probiere als nächstes noch aus die SATA Energiesparmaßnahmen zu deaktivieren, vielleicht ist da irgendwas .... ansonsten gehen mir wirklich die Ideen aus.

Wegen der 64GB ist außerdem SWAP aus, das könnte auch noch eine potentielle Fehlerquelle sein, oder?

Badrig · Jan 25, 2024

Ich habe jetzt im Log (nach dem Reset und Neustart) noch etwas gefunden:

Code:

Jan 25 19:51:02 pve2 kernel: BERT: Error records from previous boot:
Jan 25 19:51:02 pve2 kernel: [Hardware Error]: event severity: fatal
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:  Error 0, type: fatal
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   section_type: Firmware Error Record Reference
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   Firmware Error Record Type: SOC Firmware Error Record Type2
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   Revision: 2
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   Record Identifier: 8f87f311-c998-4d9e-a0c4-6065518c4f6d
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000000: 11036101 00000080 00000000 fe013d40  .a..........@=..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000010: 00000000 48744e39 00002a10 48744f49  ....9NtH.*..IOtH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000020: 00002a0e 487450dd 00002a0f 487451c9  .*...PtH.*...QtH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000030: 00002a0e 48745331 00002a0f 4874541d  .*..1StH.*...TtH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000040: 00002a0e 4874551d 00002a0f 4874562d  .*...UtH.*..-VtH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000050: 00002a10 4874573d 00002a0e 487458da  .*..=WtH.*...XtH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000060: 00002a0f 487459ea 00002a14 48745ba2  .*...YtH.*...[tH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000070: 00002a15 48745de4 16c00532 00002535  .*...]tH2...5%..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000080: 02002a16 48745f75 00002a18 48746130  .*..u_tH.*..0atH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000090: 00002a19 48750df6 00002a1a 48750f1a  .*....uH.*....uH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000000a0: 00002a1b 48752a7e 16c00532 00002535  .*..~*uH2...5%..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000000b0: 02002a1c 48752be1 00000000 00000001  .*...+uH........
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000000c0: 02002a22 48752e96 00000001 00000000  "*....uH........
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000000d0: 02002a23 48790496 16c00532 00002535  #*....yH2...5%..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000000e0: 02002a1d 487906f4 16c00532 00002535  .*....yH2...5%..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000000f0: 02002a17 4879086b 00002a0e 487909ea  .*..k.yH.*....yH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000100: 00002a0f 48790ad6 00002a0e 48790bd6  .*....yH.*....yH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000110: 00002a0f 48790cc2 00002a10 48790dd2  .*....yH.*....yH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000120: 00002a0e 48790f66 00002a0f 48791052  .*..f.yH.*..R.yH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000130: 00002a07 4879119e 00002a25 487912ae  .*....yH%*....yH
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000140: 1fa42543 0000c000 00000000 07000000  C%..............
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000150: 00787038 00000211 0500020e 1fa4284e  8px.........N(..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000160: 0000c000 00000000 06000000 3c5a7030  ............0pZ<
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000170: 00000311 0500020e 1fa42b56 0000200c  ........V+... ..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000180: 1fa447aa 0000200d 1fb5d74d 00002012  .G... ..M.... ..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   00000190: 1fb61ac5 00002013 1fb6b8be 00002a24  ..... ......$*..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000001a0: 48744109 00002a06 48744282 00002a0e  .AtH.*...BtH.*..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000001b0: 48744391 00002a0f 4874447d 00002a0e  .CtH.*..}DtH.*..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000001c0: 4874457d 00002a0f 48744669 00002a10  }EtH.*..iFtH.*..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000001d0: 48744779 00002a0e 4874490d 00002a0f  yGtH.*...ItH.*..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000001e0: 487449f9 00002a0e 48744b61 00002a0f  .ItH.*..aKtH.*..
Jan 25 19:51:02 pve2 kernel: [Hardware Error]:   000001f0: 48744c4d 00002a0e 48744d4d 00002a0f  MLtH.*..MMtH.*..
Jan 25 19:51:02 pve2 kernel: BERT: Total records found: 1

Sowas passiert wohl gerne bei recht neuen CPUs. Offenbar triggert irgendwas an den Containern einen Fehler in der CPU Firmware.
Ich habe jetzt ein Microcode Update gemacht. Mal sehen .... Es gab eine neuere Version, aber so richtig Hoffnung habe ich nicht.

Falk R. · Jan 25, 2024

Ich habe schon von einigen Problemen gehört, bei CPUs mit P+E Cores.
Eventuell hilft das Update, andere Leute haben einfach die P-Cores im BIOS deaktiviert.

Badrig · Feb 6, 2024

Offenbar mochte der NUC 12 den Mushkin Speicher nicht. Ich habe jetzt Crucial eingebaut und seitdem kein Freeze mehr.

Search

Search

Host freezt komplett

Badrig

Member

Attachments

cheiss

Proxmox Staff Member

Badrig

Member

cheiss

Proxmox Staff Member

Badrig

Member

Badrig

Member

Badrig

Member

Badrig

Member

Badrig

Member

Falk R.

Distinguished Member

Badrig

Member