Absturz von pve-cluster / Segfault cfs_loop

janw · Sep 22, 2020

Guten Tag,

seit etwa einer Woche tritt bei uns im Cluster unregelmäßig ein Problem auf, was dafür sorgt, dass pve-cluster auf allen Nodes im Cluster, ausgenommen einer, abstürzt. Die eine Node, die nicht abstürzt, ist in der corosync.conf unter totem->interface->bindnetaddr eingetragen. Testweise haben wir hier die bindnetaddr auf eine andere Node geändert, abstürzen tut jedoch auch weiterhin noch die vorher dort eingetragene.
Seit heute Vormittag tritt dieses Problem kontinuierlich auf mit einem Abstand von etwa zwei Stunden.

Die Syslog zeigt dabei auf allen Nodes sekundengleich den folgenden Output:

Code:

Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [dcdb] notice: members: 1/3339127, 2/3971715, 4/1343450, 6/3571838, 8/2889116, 9/915701
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [dcdb] notice: starting data syncronisation
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [status] notice: members: 1/3339127, 2/3971715, 4/1343450, 6/3571838, 8/2889116, 9/915701
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [status] notice: starting data syncronisation
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [dcdb] notice: received sync request (epoch 1/3339127/00000008)
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [status] notice: received sync request (epoch 1/3339127/00000008)
Sep 22 07:38:20 ls-ds-36 kernel: [6957267.804420] cfs_loop[3571839]: segfault at 7f3e417a5171 ip 000055bb594ac7b0 sp 00007f3de2f48318 error 4 in pmxcfs[55bb59493000+1b000]
Sep 22 07:38:20 ls-ds-36 kernel: [6957267.804432] Code: 10 48 89 c6 48 89 ef 48 89 10 48 8b 53 08 48 89 50 08 48 89 c2 e8 50 74 fe ff b8 01 00 00 00 e9 4a ff ff ff 66 0f 1f 44 00 00 <8b> 47 0c 8b 56 0c 39 d0 75 0d 48 8b 47 10 48 8b 56 10 48 39 d0 74
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Main process exited, code=killed, status=11/SEGV
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Failed with result 'signal'.
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Service RestartSec=100ms expired, scheduling restart.
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Scheduled restart job, restart counter is at 1.
Sep 22 07:38:20 ls-ds-36 systemd[1]: Stopped The Proxmox VE cluster filesystem.
Sep 22 07:38:20 ls-ds-36 systemd[1]: Starting The Proxmox VE cluster filesystem...
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: fuse: failed to access mountpoint /etc/pve: Transport endpoint is not connected
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] crit: fuse_mount error: Transport endpoint is not connected
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] crit: fuse_mount error: Transport endpoint is not connected
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] notice: exit proxmox configuration filesystem (-1)
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] notice: exit proxmox configuration filesystem (-1)
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Control process exited, code=exited, status=255/EXCEPTION
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Failed with result 'exit-code'.
Sep 22 07:38:20 ls-ds-36 systemd[1]: Failed to start The Proxmox VE cluster filesystem.
Sep 22 07:38:20 ls-ds-36 pveproxy[3992791]: ipcc_send_rec[1] failed: Connection refused
Sep 22 07:38:20 ls-ds-36 pveproxy[3992791]: ipcc_send_rec[2] failed: Connection refused

Um den Fehler zu beheben, muss mit umount -fl /etc/pve der Mount entfernt werden und der Dienst wieder mit service pve-cluster start gestartet werden.
Kann uns hier jemand weiterhelfen, wodurch dies auftritt bzw. wie dies behoben werden kann?

fabian · Sep 23, 2020

ein coredump von pmxcfs (z.b. mittels systemd-coredump) und den genauen output von pveversion -v zum zeitpunkt des crashs wuerde beim eingrenzen helfen.

achtung: der coredump kann sensitive informationen enthalten, also vielleicht erstmal nur den vollen backtrace:

Code:

$ apt install pve-cluster-dbgsym
$ coredumpctl list
....
$ coredump gdb 1234
...
(gdb) thread apply all bt full

1234 ist die PID vom gecrashten pmxcfs prozess, der output vom letzten kommando im GDB sollte den backtrace ausgeben (ganzen output hierher kopieren in

Code:

[code][ /code]

tags)

Search

Search

Absturz von pve-cluster / Segfault cfs_loop

janw

Member

fabian

Proxmox Staff Member