Guten Tag,
seit etwa einer Woche tritt bei uns im Cluster unregelmäßig ein Problem auf, was dafür sorgt, dass pve-cluster auf allen Nodes im Cluster, ausgenommen einer, abstürzt. Die eine Node, die nicht abstürzt, ist in der corosync.conf unter totem->interface->bindnetaddr eingetragen. Testweise haben wir hier die bindnetaddr auf eine andere Node geändert, abstürzen tut jedoch auch weiterhin noch die vorher dort eingetragene.
Seit heute Vormittag tritt dieses Problem kontinuierlich auf mit einem Abstand von etwa zwei Stunden.
Die Syslog zeigt dabei auf allen Nodes sekundengleich den folgenden Output:
Um den Fehler zu beheben, muss mit
Kann uns hier jemand weiterhelfen, wodurch dies auftritt bzw. wie dies behoben werden kann?
seit etwa einer Woche tritt bei uns im Cluster unregelmäßig ein Problem auf, was dafür sorgt, dass pve-cluster auf allen Nodes im Cluster, ausgenommen einer, abstürzt. Die eine Node, die nicht abstürzt, ist in der corosync.conf unter totem->interface->bindnetaddr eingetragen. Testweise haben wir hier die bindnetaddr auf eine andere Node geändert, abstürzen tut jedoch auch weiterhin noch die vorher dort eingetragene.
Seit heute Vormittag tritt dieses Problem kontinuierlich auf mit einem Abstand von etwa zwei Stunden.
Die Syslog zeigt dabei auf allen Nodes sekundengleich den folgenden Output:
Code:
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [dcdb] notice: members: 1/3339127, 2/3971715, 4/1343450, 6/3571838, 8/2889116, 9/915701
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [dcdb] notice: starting data syncronisation
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [status] notice: members: 1/3339127, 2/3971715, 4/1343450, 6/3571838, 8/2889116, 9/915701
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [status] notice: starting data syncronisation
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [dcdb] notice: received sync request (epoch 1/3339127/00000008)
Sep 22 07:38:20 ls-ds-36 pmxcfs[3571838]: [status] notice: received sync request (epoch 1/3339127/00000008)
Sep 22 07:38:20 ls-ds-36 kernel: [6957267.804420] cfs_loop[3571839]: segfault at 7f3e417a5171 ip 000055bb594ac7b0 sp 00007f3de2f48318 error 4 in pmxcfs[55bb59493000+1b000]
Sep 22 07:38:20 ls-ds-36 kernel: [6957267.804432] Code: 10 48 89 c6 48 89 ef 48 89 10 48 8b 53 08 48 89 50 08 48 89 c2 e8 50 74 fe ff b8 01 00 00 00 e9 4a ff ff ff 66 0f 1f 44 00 00 <8b> 47 0c 8b 56 0c 39 d0 75 0d 48 8b 47 10 48 8b 56 10 48 39 d0 74
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Main process exited, code=killed, status=11/SEGV
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Failed with result 'signal'.
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Service RestartSec=100ms expired, scheduling restart.
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Scheduled restart job, restart counter is at 1.
Sep 22 07:38:20 ls-ds-36 systemd[1]: Stopped The Proxmox VE cluster filesystem.
Sep 22 07:38:20 ls-ds-36 systemd[1]: Starting The Proxmox VE cluster filesystem...
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: fuse: failed to access mountpoint /etc/pve: Transport endpoint is not connected
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] crit: fuse_mount error: Transport endpoint is not connected
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] crit: fuse_mount error: Transport endpoint is not connected
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] notice: exit proxmox configuration filesystem (-1)
Sep 22 07:38:20 ls-ds-36 pmxcfs[3996887]: [main] notice: exit proxmox configuration filesystem (-1)
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Control process exited, code=exited, status=255/EXCEPTION
Sep 22 07:38:20 ls-ds-36 systemd[1]: pve-cluster.service: Failed with result 'exit-code'.
Sep 22 07:38:20 ls-ds-36 systemd[1]: Failed to start The Proxmox VE cluster filesystem.
Sep 22 07:38:20 ls-ds-36 pveproxy[3992791]: ipcc_send_rec[1] failed: Connection refused
Sep 22 07:38:20 ls-ds-36 pveproxy[3992791]: ipcc_send_rec[2] failed: Connection refused
Um den Fehler zu beheben, muss mit
umount -fl /etc/pve
der Mount entfernt werden und der Dienst wieder mit service pve-cluster start
gestartet werden.Kann uns hier jemand weiterhelfen, wodurch dies auftritt bzw. wie dies behoben werden kann?