readd Clusternode nach Fehler

Mario Hosse · Apr 23, 2018

Hallo,

ich habe ein Problem mit einem ausgefallenen Node bei einem Update.
Geben ist ein 4-Node-Cluster, 3-Nodes laufen im Cluster, den defekten Node möchte ich wieder hinzufügen ohne eine Neuinstallation, da ceph mit 6 Platten auf dem Node läuft.

Befehl hinzufügen zum Cluster:

pvecm add xxx.xxx.xxx.xxx -force

Problem ist folgende Meldung auf dem defekten Node:

Are you sure you want to continue connecting (yes/no)? yes
Login succeeded.
Request addition of this node
500 can't lock file '/var/lock/pvecm.lock' - got timeout

Was kann ich machen, damit diese Sperre beseitigt wird?

Version

proxmox-ve: 5.1-42 (running kernel: 4.13.16-2-pve)
pve-manager: 5.1-51 (running version: 5.1-51/96be5354)
pve-kernel-4.13: 5.1-44
pve-kernel-4.13.16-2-pve: 4.13.16-47
pve-kernel-4.13.16-1-pve: 4.13.16-46
pve-kernel-4.13.13-6-pve: 4.13.13-42
pve-kernel-4.13.13-5-pve: 4.13.13-38
ceph: 12.2.4-pve1
corosync: 2.4.2-pve4
criu: 2.11.1-1~bpo90
glusterfs-client: 3.8.8-1
ksm-control-daemon: 1.2-2
libjs-extjs: 6.0.1-2
libpve-access-control: 5.0-8
libpve-apiclient-perl: 2.0-4
libpve-common-perl: 5.0-30
libpve-guest-common-perl: 2.0-14
libpve-http-server-perl: 2.0-8
libpve-storage-perl: 5.0-18
libqb0: 1.0.1-1
lvm2: 2.02.168-pve6
lxc-pve: 2.1.1-3
lxcfs: 2.0.8-2
novnc-pve: 0.6-4
openvswitch-switch: 2.7.0-2
proxmox-widget-toolkit: 1.0-15
pve-cluster: 5.0-25
pve-container: 2.0-21
pve-docs: 5.1-17
pve-firewall: 3.0-8
pve-firmware: 2.0-4
pve-ha-manager: 2.0-5
pve-i18n: 1.0-4
pve-libspice-server1: 0.12.8-3
pve-qemu-kvm: 2.11.1-5
pve-xtermjs: 1.0-2
qemu-server: 5.0-25
smartmontools: 6.5+svn4324-1
spiceterm: 3.0-5
vncterm: 1.5-3
zfsutils-linux: 0.7.7-pve1~bpo9

pvecm status

Quorum information
------------------
Date: Mon Apr 23 11:53:31 2018
Quorum provider: corosync_votequorum
Nodes: 3
Node ID: 0x00000001
Ring ID: 1/695552
Quorate: Yes

Votequorum information
----------------------
Expected votes: 3
Highest expected: 3
Total votes: 3
Quorum: 2
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 xxx.xxx.xxx.xx1 (local)
0x00000003 1 xxx.xxx.xxx.xx3
0x00000004 1 xxx.xxx.xxx.xx4

Vielen Dank die Hilfe!

shibumi · Apr 23, 2018

Das Vorgehen für so einen Fall würde mich auch interessieren. Im Wiki steht leider nichts dazu wie man einen Knoten ohne Neuinstallation zum Cluster neu hinzufügt.

Olaf Brenn · Aug 22, 2019

Hallo, ich habe den gleichen Fehler nach dem neuen Join eines Nodes. Gab es dafür eine Lösung?

Olaf

Mario Hosse · Aug 22, 2019

Hallo Olaf,

Olaf Brenn said:
Hallo, ich habe den gleichen Fehler nach dem neuen Join eines Nodes. Gab es dafür eine Lösung?

Olaf

wird denn der neue Node bei den anderen Nodes als join angezeigt?

Prüfen mit dem Befehl

pvecm status

von einem funktionierenden Node im Cluster.

Wenn dort enthalten auf dem defekten Node:

systemctl stop corosync
systemctl stop pve-cluster
ps auxwf |grep pmxcfs
kill 2497 #id pmxcfs form grep
rm -f /var/lib/pve-cluster/.pmxcfs.lockfile #lösche Sperre
cp /var/lib/pve-cluster/config.db /root #kopiere die config.db zu root als Backup
rm -f /var/lib/pve-cluster/config.db #lösche die config.db auf dem defekten Node
Kopiere dann per scp von einem funktionierenden Node die /var/lib/pve-cluster/config.db auf den defekten Node.
reboot #defekter Node

Bitte schließe andere Fehler vorher aus, bevor du diese Änderung vornimmst!

Mario

Olaf Brenn · Aug 29, 2019

ich habe jetzt alle Nodes auf 6.0.4 gehoben - jetzt tut es. Danke trotzdem für die Hilfe

Search

Search

readd Clusternode nach Fehler

Mario Hosse

Well-Known Member

shibumi

Member

Olaf Brenn

Well-Known Member

Mario Hosse

Well-Known Member

Olaf Brenn

Well-Known Member