Hallo zusammen,
seit rund 10 Tagen (nach upgrade auf 8.2.7) gehe ich (scheinbar) zufälligen segmentation faults auf die Schliche, die ich nicht erklären kann. Konkret sieht das ganze so aus:
Ursprünglich hatte ich einen LXC Container mit wireguard im Verdacht. Aber wie man den logs entnehmen kann, passiert er auch z.B. im LXC Container in dem Seafile läuft.
Konkret sieht ein Segmentation Fault des pveproxy workers wie folgt aus:
Auswirkung: Im Proxmox webinterface sind alle container/VMs ausgegraut (status Unknown).
Nachdem ich sogar mehrere LXC Container nach Ausschlussprinzip abgeschaltet hatte und nicht weiter kam, weil der Segmentation Fault immer wieder auftrat, habe ich einen memtest86+ und debsums durchgeführt, beides war unauffällig (passed/alles OK).
Ich habe daraufhin den Hetzner Support kontaktiert und um ein BIOS update gebeten, welches auch gestern durchgeführt wurde.
Eine Besserung hat dieses Update (bisher) gebracht - vor dem BIOS update hatte ich hard locks der CPU, sodass ich den Server per Webinterface neustarten musste, diese traten nach dem Update bisher nicht auf.
Soeben habe ich perl neuinstalliert, kann aber noch nicht sagen, ob das etwas gebracht hat (bezweifle ich aber stark)
An dieser Stelle bin ich aufgeschmissen und weiss ehrlich gesagt nicht mehr weiter, vielleicht hat jemand von euch ja eine Idee...
Hier noch ein paar Eckdaten:
Serverhardware: i9 13900, 64 GB ECC RAM, Asus W680/MB DC
Für jeden Hinweis bin ich sehr dankbar!
Viele Grüße
seit rund 10 Tagen (nach upgrade auf 8.2.7) gehe ich (scheinbar) zufälligen segmentation faults auf die Schliche, die ich nicht erklären kann. Konkret sieht das ganze so aus:
Code:
Sep 24 02:25:58 server kernel: pool[197135]: segfault at 8 ip 0000583433640eaf sp 00007b891dfff680 error 4 in seaf-server[583433600000+131000] likely on CPU 19 (core 35, socket 0)
Sep 24 12:09:18 server kernel: pveproxy worker[253803]: segfault at 20000008 ip 00005a17179bc12a sp 00007ffecf581c50 error 4 in perl[5a17178d3000+195000] likely on CPU 11 (core 20, socket 0)
Sep 24 14:09:43 server kernel: pvestatd[1731]: segfault at ffffffffffffffff ip 00005660935dc4cc sp 00007ffd16f453c0 error 7 in perl[5660934f1000+195000] likely on CPU 11 (core 20, socket 0)
Sep 24 14:16:41 server kernel: pveproxy worker[1140726]: segfault at 9 ip 00005a17179bc12a sp 00007ffecf581c60 error 4 in perl[5a17178d3000+195000] likely on CPU 11 (core 20, socket 0)
Sep 24 17:57:37 server kernel: task UPID:server[1398859]: segfault at 9 ip 00006175f9f1d12a sp 00007ffce35add50 error 4 in perl[6175f9e34000+195000] likely on CPU 10 (core 20, socket 0)
Sep 24 17:57:48 server kernel: pvedaemon worke[1394624]: segfault at e ip 00006175f9f11627 sp 00007ffce35adad0 error 4 in perl[6175f9e34000+195000] likely on CPU 10 (core 20, socket 0)
Ursprünglich hatte ich einen LXC Container mit wireguard im Verdacht. Aber wie man den logs entnehmen kann, passiert er auch z.B. im LXC Container in dem Seafile läuft.
Konkret sieht ein Segmentation Fault des pveproxy workers wie folgt aus:
Code:
ep 24 12:09:18 server kernel: show_signal_msg: 55 callbacks suppressed
Sep 24 12:09:18 server kernel: pveproxy worker[253803]: segfault at 20000008 ip 00005a17179bc12a sp 00007ffecf581c50 error 4 in perl[5a17178d3000+195000] likely on CPU 11 (core 20, socket 0)
Sep 24 12:09:18 server kernel: Code: ff 00 00 00 81 e2 00 00 00 04 75 11 49 8b 96 f8 00 00 00 48 89 10 49 89 86 f8 00 00 00 49 83 ae f0 00 00 00 01 4d 85 ff 74 19 <41> 8b 47 08 85 c0 0f 84 c2 00 00 00 83 e8 01 41 89 47 08 0f 84 05
Auswirkung: Im Proxmox webinterface sind alle container/VMs ausgegraut (status Unknown).
Nachdem ich sogar mehrere LXC Container nach Ausschlussprinzip abgeschaltet hatte und nicht weiter kam, weil der Segmentation Fault immer wieder auftrat, habe ich einen memtest86+ und debsums durchgeführt, beides war unauffällig (passed/alles OK).
Ich habe daraufhin den Hetzner Support kontaktiert und um ein BIOS update gebeten, welches auch gestern durchgeführt wurde.
Eine Besserung hat dieses Update (bisher) gebracht - vor dem BIOS update hatte ich hard locks der CPU, sodass ich den Server per Webinterface neustarten musste, diese traten nach dem Update bisher nicht auf.
Soeben habe ich perl neuinstalliert, kann aber noch nicht sagen, ob das etwas gebracht hat (bezweifle ich aber stark)
An dieser Stelle bin ich aufgeschmissen und weiss ehrlich gesagt nicht mehr weiter, vielleicht hat jemand von euch ja eine Idee...
Hier noch ein paar Eckdaten:
Code:
pveversion -v
proxmox-ve: 8.2.0 (running kernel: 6.8.12-2-pve)
pve-manager: 8.2.7 (running version: 8.2.7/3e0176e6bb2ade3b)
proxmox-kernel-helper: 8.1.0
pve-kernel-6.2: 8.0.5
proxmox-kernel-6.8: 6.8.12-2
proxmox-kernel-6.8.12-2-pve-signed: 6.8.12-2
proxmox-kernel-6.8.12-1-pve-signed: 6.8.12-1
proxmox-kernel-6.5.13-6-pve-signed: 6.5.13-6
proxmox-kernel-6.5: 6.5.13-6
proxmox-kernel-6.2.16-20-pve: 6.2.16-20
proxmox-kernel-6.2: 6.2.16-20
pve-kernel-6.2.16-3-pve: 6.2.16-3
ceph-fuse: 17.2.6-pve1+3
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx9
ksm-control-daemon: 1.5-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.1
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.4
libpve-access-control: 8.1.4
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.0.7
libpve-cluster-perl: 8.0.7
libpve-common-perl: 8.2.3
libpve-guest-common-perl: 5.1.4
libpve-http-server-perl: 5.1.1
libpve-network-perl: 0.9.8
libpve-rs-perl: 0.8.10
libpve-storage-perl: 8.2.5
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.4.0-4
proxmox-backup-client: 3.2.7-1
proxmox-backup-file-restore: 3.2.7-1
proxmox-firewall: 0.5.0
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-widget-toolkit: 4.2.3
pve-cluster: 8.0.7
pve-container: 5.2.0
pve-docs: 8.2.3
pve-edk2-firmware: 4.2023.08-4
pve-esxi-import-tools: 0.7.2
pve-firewall: 5.0.7
pve-firmware: 3.13-2
pve-ha-manager: 4.0.5
pve-i18n: 3.2.3
pve-qemu-kvm: 9.0.2-3
pve-xtermjs: 5.3.0-3
qemu-server: 8.2.4
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.6-pve1
Serverhardware: i9 13900, 64 GB ECC RAM, Asus W680/MB DC
Für jeden Hinweis bin ich sehr dankbar!
Viele Grüße