readd Clusternode nach Fehler

Mario Hosse

Well-Known Member
Oct 25, 2017
51
6
48
Hallo,

ich habe ein Problem mit einem ausgefallenen Node bei einem Update.
Geben ist ein 4-Node-Cluster, 3-Nodes laufen im Cluster, den defekten Node möchte ich wieder hinzufügen ohne eine Neuinstallation, da ceph mit 6 Platten auf dem Node läuft.

Befehl hinzufügen zum Cluster:
pvecm add xxx.xxx.xxx.xxx -force

Problem ist folgende Meldung auf dem defekten Node:
Are you sure you want to continue connecting (yes/no)? yes
Login succeeded.
Request addition of this node
500 can't lock file '/var/lock/pvecm.lock' - got timeout

Was kann ich machen, damit diese Sperre beseitigt wird?


Version
proxmox-ve: 5.1-42 (running kernel: 4.13.16-2-pve)
pve-manager: 5.1-51 (running version: 5.1-51/96be5354)
pve-kernel-4.13: 5.1-44
pve-kernel-4.13.16-2-pve: 4.13.16-47
pve-kernel-4.13.16-1-pve: 4.13.16-46
pve-kernel-4.13.13-6-pve: 4.13.13-42
pve-kernel-4.13.13-5-pve: 4.13.13-38
ceph: 12.2.4-pve1
corosync: 2.4.2-pve4
criu: 2.11.1-1~bpo90
glusterfs-client: 3.8.8-1
ksm-control-daemon: 1.2-2
libjs-extjs: 6.0.1-2
libpve-access-control: 5.0-8
libpve-apiclient-perl: 2.0-4
libpve-common-perl: 5.0-30
libpve-guest-common-perl: 2.0-14
libpve-http-server-perl: 2.0-8
libpve-storage-perl: 5.0-18
libqb0: 1.0.1-1
lvm2: 2.02.168-pve6
lxc-pve: 2.1.1-3
lxcfs: 2.0.8-2
novnc-pve: 0.6-4
openvswitch-switch: 2.7.0-2
proxmox-widget-toolkit: 1.0-15
pve-cluster: 5.0-25
pve-container: 2.0-21
pve-docs: 5.1-17
pve-firewall: 3.0-8
pve-firmware: 2.0-4
pve-ha-manager: 2.0-5
pve-i18n: 1.0-4
pve-libspice-server1: 0.12.8-3
pve-qemu-kvm: 2.11.1-5
pve-xtermjs: 1.0-2
qemu-server: 5.0-25
smartmontools: 6.5+svn4324-1
spiceterm: 3.0-5
vncterm: 1.5-3
zfsutils-linux: 0.7.7-pve1~bpo9

pvecm status
Quorum information
------------------
Date: Mon Apr 23 11:53:31 2018
Quorum provider: corosync_votequorum
Nodes: 3
Node ID: 0x00000001
Ring ID: 1/695552
Quorate: Yes

Votequorum information
----------------------
Expected votes: 3
Highest expected: 3
Total votes: 3
Quorum: 2
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 xxx.xxx.xxx.xx1 (local)
0x00000003 1 xxx.xxx.xxx.xx3
0x00000004 1 xxx.xxx.xxx.xx4

Vielen Dank die Hilfe!
 
Das Vorgehen für so einen Fall würde mich auch interessieren. Im Wiki steht leider nichts dazu wie man einen Knoten ohne Neuinstallation zum Cluster neu hinzufügt.
 
Hallo, ich habe den gleichen Fehler nach dem neuen Join eines Nodes. Gab es dafür eine Lösung?

Olaf
 
Hallo Olaf,

Hallo, ich habe den gleichen Fehler nach dem neuen Join eines Nodes. Gab es dafür eine Lösung?

Olaf

wird denn der neue Node bei den anderen Nodes als join angezeigt?

Prüfen mit dem Befehl
pvecm status
von einem funktionierenden Node im Cluster.

Wenn dort enthalten auf dem defekten Node:
systemctl stop corosync
systemctl stop pve-cluster
ps auxwf |grep pmxcfs
kill 2497 #id pmxcfs form grep
rm -f /var/lib/pve-cluster/.pmxcfs.lockfile #lösche Sperre
cp /var/lib/pve-cluster/config.db /root #kopiere die config.db zu root als Backup
rm -f /var/lib/pve-cluster/config.db #lösche die config.db auf dem defekten Node
Kopiere dann per scp von einem funktionierenden Node die /var/lib/pve-cluster/config.db auf den defekten Node.
reboot #defekter Node
Bitte schließe andere Fehler vorher aus, bevor du diese Änderung vornimmst!

Mario
 
ich habe jetzt alle Nodes auf 6.0.4 gehoben - jetzt tut es. Danke trotzdem für die Hilfe
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!