Cluster Node ausgegraut

awdfts · Aug 27, 2025

Hallo,

ich habe folgendes Problem: Eine der Nodes im Cluster ist ausgegraut und lässt sich nicht mehr über das GUI managen. Die VMs laufen aber weiterhin und können über qm im Terminal gemanaged werden. Die anderen Nodes im Cluster laufen normal. Kann sich das jemand anschauen? Welche Logs/Infos bräuchtet ihr noch und gibt es auch die Möglichkeit im englischen Supportforum zu fragen? In der Übersicht wurden mir nur deutsche angezeigt. Vielen Dank schonmal!!

Auf der Node ist auch ein NFS share nicht verfügbar. Es taucht zwar unter /mnt/pve/ auf, aber ist leer. Die anderen Nodes hingegen, können normal auf den share zugreifen.

Wenn ich mir im GUI der Node etwas anzeigen lassen möchte (z.B. Disks) kommt: communication failure (0)
Wenn ich mich auf der Node einloggen möchte, kommt: Login failed. Please try again

pvecm status
Cluster information
-------------------
Name: stx-bonn
Config Version: 8
Transport: knet
Secure auth: on

Quorum information
------------------
Date: Wed Aug 27 11:12:58 2025
Quorum provider: corosync_votequorum
Nodes: 6
Node ID: 0x00000006
Ring ID: 1.185
Quorate: Yes

Votequorum information
----------------------
Expected votes: 6
Highest expected: 6
Total votes: 6
Quorum: 4
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 10.20.0.14
0x00000002 1 10.20.0.18
0x00000003 1 10.20.0.19
0x00000004 1 10.20.0.11
0x00000005 1 10.20.0.10
0x00000006 1 10.20.0.15 (local)

pveversion -v
proxmox-ve: 8.3.0 (running kernel: 6.8.12-9-pve)
pve-manager: 8.3.5 (running version: 8.3.5/dac3aa88bac3f300)
proxmox-kernel-helper: 8.1.1
proxmox-kernel-6.8: 6.8.12-9
proxmox-kernel-6.8.12-9-pve-signed: 6.8.12-9
proxmox-kernel-6.8.12-4-pve-signed: 6.8.12-4
ceph-fuse: 17.2.7-pve3
corosync: 3.1.9-pve1
criu: 3.17.1-2+deb12u1
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx11
ksm-control-daemon: 1.5-1
libjs-extjs: 7.0.0-5
libknet1: 1.30-pve1
libproxmox-acme-perl: 1.6.0
libproxmox-backup-qemu0: 1.5.1
libproxmox-rs-perl: 0.3.5
libpve-access-control: 8.2.1
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.1.0
libpve-cluster-perl: 8.1.0
libpve-common-perl: 8.3.0
libpve-guest-common-perl: 5.2.0
libpve-http-server-perl: 5.2.0
libpve-network-perl: 0.10.1
libpve-rs-perl: 0.9.3
libpve-storage-perl: 8.3.5
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.6.0-2
proxmox-backup-client: 3.3.7-1
proxmox-backup-file-restore: 3.3.7-1
proxmox-firewall: 0.6.0
proxmox-kernel-helper: 8.1.1
proxmox-mail-forward: 0.3.1
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.7
proxmox-widget-toolkit: 4.3.8
pve-cluster: 8.1.0
pve-container: 5.2.5
pve-docs: 8.3.1
pve-edk2-firmware: 4.2025.02-3
pve-esxi-import-tools: 0.7.2
pve-firewall: 5.1.0
pve-firmware: 3.15-3
pve-ha-manager: 4.0.6
pve-i18n: 3.4.1
pve-qemu-kvm: 9.2.0-5
pve-xtermjs: 5.5.0-1
qemu-server: 8.3.10
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.7-pve2

systemctl status corosync
● corosync.service - Corosync Cluster Engine
Loaded: loaded (/lib/systemd/system/corosync.service; enabled; preset: enabled)
Active: active (running) since Wed 2025-04-09 15:31:51 CEST; 4 months 18 days ago
Docs: man:corosync
man:corosync.conf
man:corosync_overview
Main PID: 1638 (corosync)
Tasks: 9 (limit: 618716)
Memory: 162.7M
CPU: 4d 8min 5.689s
CGroup: /system.slice/corosync.service
└─1638 /usr/sbin/corosync -f

Aug 21 13:02:46 proxmox-9 corosync[1638]: [KNET ] host: host: 4 has no active links
Aug 21 13:06:59 proxmox-9 corosync[1638]: [KNET ] rx: host: 4 link: 0 is up
Aug 21 13:06:59 proxmox-9 corosync[1638]: [KNET ] link: Resetting MTU for link 0 because host 4 joined
Aug 21 13:06:59 proxmox-9 corosync[1638]: [KNET ] host: host: 4 (passive) best link: 0 (pri: 1)
Aug 21 13:06:59 proxmox-9 corosync[1638]: [KNET ] pmtud: Global data MTU changed to: 1397
Aug 21 13:07:00 proxmox-9 corosync[1638]: [QUORUM] Sync members[6]: 1 2 3 4 5 6
Aug 21 13:07:00 proxmox-9 corosync[1638]: [QUORUM] Sync joined[1]: 4
Aug 21 13:07:00 proxmox-9 corosync[1638]: [TOTEM ] A new membership (1.185) was formed. Members joined: 4
Aug 21 13:07:00 proxmox-9 corosync[1638]: [QUORUM] Members[6]: 1 2 3 4 5 6
Aug 21 13:07:00 proxmox-9 corosync[1638]: [MAIN ] Completed service synchronization, ready to provide service.

systemctl status pve-cluster
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; preset: enabled)
Active: active (running) since Fri 2025-08-22 14:38:49 CEST; 4 days ago
Process: 1636229 ExecStart=/usr/bin/pmxcfs (code=exited, status=0/SUCCESS)
Main PID: 1636231 (pmxcfs)
Tasks: 7 (limit: 618716)
Memory: 18.2M
CPU: 23min 44.827s
CGroup: /system.slice/pve-cluster.service
└─1636231 /usr/bin/pmxcfs

Aug 27 10:30:19 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 10:30:22 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 10:30:24 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 10:42:10 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 10:42:26 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 10:45:01 proxmox-9 pmxcfs[1636231]: [dcdb] notice: data verification successful
Aug 27 10:57:10 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 10:57:27 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 11:12:10 proxmox-9 pmxcfs[1636231]: [status] notice: received log
Aug 27 11:12:27 proxmox-9 pmxcfs[1636231]: [status] notice: received log

cat /etc/pve/corosync.conf
logging {
debug: off
to_syslog: yes
}

nodelist {
node {
name: proxmox-1
nodeid: 1
quorum_votes: 1
ring0_addr: 10.20.0.14
}
node {
name: proxmox-3
nodeid: 2
quorum_votes: 1
ring0_addr: 10.20.0.18
}
node {
name: proxmox-4
nodeid: 3
quorum_votes: 1
ring0_addr: 10.20.0.19
}
node {
name: proxmox-6
nodeid: 4
quorum_votes: 1
ring0_addr: 10.20.0.11
}
node {
name: proxmox-7
nodeid: 5
quorum_votes: 1
ring0_addr: 10.20.0.10
}
node {
name: proxmox-9
nodeid: 6
quorum_votes: 1
ring0_addr: 10.20.0.15
}
}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: stx-bonn
config_version: 8
interface {
linknumber: 0
}
ip_version: ipv4-6
link_mode: passive
secauth: on
version: 2
}

awdfts · Aug 27, 2025

systemctl status pveproxy
● pveproxy.service - PVE API Proxy Server
Loaded: loaded (/lib/systemd/system/pveproxy.service; enabled; preset: enabled)
Active: active (running) since Thu 2025-08-21 13:30:45 CEST; 5 days ago
Process: 1429267 ExecStartPre=/usr/bin/pvecm updatecerts --silent (code=exited, status=0/SUCCESS)
Process: 1429269 ExecStart=/usr/bin/pveproxy start (code=exited, status=0/SUCCESS)
Process: 2519678 ExecReload=/usr/bin/pveproxy restart (code=exited, status=0/SUCCESS)
Main PID: 1429287 (pveproxy)
Tasks: 4 (limit: 618716)
Memory: 183.8M
CPU: 11min 43.718s
CGroup: /system.slice/pveproxy.service
├─1429287 pveproxy
├─2519699 "pveproxy worker"
├─2519700 "pveproxy worker"
└─2519701 "pveproxy worker"

Aug 27 11:52:31 proxmox-9 pveproxy[2519700]: proxy detected vanished client connection
Aug 27 11:52:39 proxmox-9 pveproxy[2519699]: proxy detected vanished client connection
Aug 27 11:52:47 proxmox-9 pveproxy[2519701]: proxy detected vanished client connection
Aug 27 11:52:49 proxmox-9 pveproxy[2519701]: proxy detected vanished client connection
Aug 27 11:53:00 proxmox-9 pveproxy[2519700]: proxy detected vanished client connection
Aug 27 11:55:20 proxmox-9 pveproxy[2519700]: proxy detected vanished client connection
Aug 27 12:53:18 proxmox-9 pveproxy[2519701]: proxy detected vanished client connection
Aug 27 12:53:57 proxmox-9 pveproxy[2519700]: proxy detected vanished client connection
Aug 27 12:53:59 proxmox-9 pveproxy[2519700]: proxy detected vanished client connection
Aug 27 12:54:05 proxmox-9 pveproxy[2519699]: proxy detected vanished client connection

Falk R. · Aug 28, 2025

Hi, ich vermute, der nicht funktionierende Zugriff auf das NFS, ist die Ursache. Hast du auf dem NFS VMs am laufen?
Kann der Node den NFS Server anpingen und passen die Berechtigungen?

awdfts · Aug 28, 2025

Falk R. said:
Hi, ich vermute, der nicht funktionierende Zugriff auf das NFS, ist die Ursache. Hast du auf dem NFS VMs am laufen?
Kann der Node den NFS Server anpingen und passen die Berechtigungen?

Auf dem NFS share sind nur ISOs usw. keine VMs. Die Node kann den NFS Server anpingen und die Berechtigungen passen auch. "mount | grep 10.20.1.93" gibt allerdings nichts zurück. Das ist die IP des NFS Servers. Der share taucht auch unter /mn/pve/ auf, ist aber leer

Falk R. · Aug 28, 2025

awdfts said:
Auf dem NFS share sind nur ISOs usw. keine VMs. Die Node kann den NFS Server anpingen und die Berechtigungen passen auch. "mount | grep 10.20.1.93" gibt allerdings nichts zurück.

Dann ist das NFS nicht gemountet und wenn VMs noch CDs eingehängt haben, kommt es zu solchen Hängern.

awdfts said:
Das ist die IP des NFS Servers. Der share taucht auch unter /mn/pve/ auf, ist aber leer

Der Ordner muss ja auftauchen, denn der ist im Datacenter definiert.

Mounte doch das NFS einmal manuell auf den Originalpfad. Dann sollte sich alles beruhigen.
Danach würde ich den host einmal leer migrieren und neu starten. Danach schauen ob der Mount wieder automatisch funktioniert.

awdfts · Aug 28, 2025

Falk R. said:
Dann ist das NFS nicht gemountet und wenn VMs noch CDs eingehängt haben, kommt es zu solchen Hängern.

Der Ordner muss ja auftauchen, denn der ist im Datacenter definiert.

Mounte doch das NFS einmal manuell auf den Originalpfad. Dann sollte sich alles beruhigen.
Danach würde ich den host einmal leer migrieren und neu starten. Danach schauen ob der Mount wieder automatisch funktioniert.

Wenn ich versuche den Share manuell zu mounten passiert nichts. Mit showmount -e 10.20.1.93 wird der Share aber angezeigt - er ist auf jeden Fall verfügbar.

Falk R. · Aug 28, 2025

awdfts said:
Wenn ich versuche den Share manuell zu mounten passiert nichts. Mit showmount -e 10.20.1.93 wird der Share aber angezeigt - er ist auf jeden Fall verfügbar.

Dann ist das vermutlich ein Berechtigungsproblem. Hat der Host mehrere IPs über die er das NAS erreichen kann?

awdfts · Aug 29, 2025

Falk R. said:
Dann ist das vermutlich ein Berechtigungsproblem. Hat der Host mehrere IPs über die er das NAS erreichen kann?

Nein, die Node hat nur die IP 10.20.0.15 und hat genau die gleichen Berechtigungen eingestellt wie alle anderen Nodes

Falk R. · Aug 29, 2025

Dann hätte ich mal gesagt, reboot tut gut.

Search

Search

Cluster Node ausgegraut

awdfts

New Member

awdfts

New Member

Falk R.

Distinguished Member

awdfts

New Member

Falk R.

Distinguished Member

awdfts

New Member

Falk R.

Distinguished Member

awdfts

New Member

Falk R.

Distinguished Member

We value your privacy