pvecm add schlägt fehl

Nov 5, 2018
4
0
1
50
Montabaur
Hallo zusammen,

ich weiß, unter diesem Begriff findet man 1Mio. Treffer unter Google... Leider hilft mir keiner davon weiter.

Ich habe eine bestehende Cluster-Umgebung mit drei nodes.
Diese läuft noch unter pve 4.4
Jetzt möchte ich beginnen die Hardware zu tauschen und die Umgebung upzudaten.
Also habe ich einen Server mit PVE 5.2 aufgesetzt, up and running versuche ich mittels pvecm add <first-node-ip> --use_ssh den Server zu einem Clusternode zu machen...
Zuerst blieb er bei Waiting for quorum stehen... wenn ich expected auf node1 und node4 runter setze läuft der Task durch, aber der neue Server ist immer noch nicht wirklich im Cluster.

1. in der /etc/hosts sind alle vier Server eingetragen
2. node1 und (neuer) node4 sind in beide Richtungen mit ssh key auth versehen, login funktioniert
3. omping auf allen vier nodes läuft ohne Verlust durch
4. nach dem pvecm add hat der neue Node die korrekte corosync.conf in /etc/pve

---schnipp---

root@pve01:~# pvecm status
Quorum information
------------------
Date: Mon Nov 5 13:15:18 2018
Quorum provider: corosync_votequorum
Nodes: 3
Node ID: 0x00000001
Ring ID: 1/17032360
Quorate: Yes

Votequorum information
----------------------
Expected votes: 3
Highest expected: 3
Total votes: 3
Quorum: 2
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 192.168.30.11 (local)
0x00000002 1 192.168.30.12
0x00000003 1 192.168.30.13

---schnapp---

---schnipp---

root@pve04:~# pvecm status
Quorum information
------------------
Date: Mon Nov 5 13:15:59 2018
Quorum provider: corosync_votequorum
Nodes: 1
Node ID: 0x00000004
Ring ID: 4/5904
Quorate: Yes

Votequorum information
----------------------
Expected votes: 1
Highest expected: 1
Total votes: 1
Quorum: 1
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000004 1 192.168.30.14 (local)

---schnapp---


---schnipp---

root@pve01:~# cat /etc/pve/corosync.conf
logging {
debug: off
to_syslog: yes
}

nodelist {
node {
name: pve02
nodeid: 2
quorum_votes: 1
ring0_addr: 192.168.30.12
}

node {
name: pve03
nodeid: 3
quorum_votes: 1
ring0_addr: 192.168.30.13
}

node {
name: pve01
nodeid: 1
quorum_votes: 1
ring0_addr: 192.168.30.11
}

node {
name: pve04
nodeid: 4
quorum_votes: 1
ring0_addr: 192.168.30.14
}

}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: my-pve-cluster
config_version: 37
ip_version: ipv4
secauth: on
transport: udp
version: 2
interface {
bindnetaddr: 192.168.30.11
ringnumber: 0
}

}


---schnapp---

ich weiss einfach nicht mehr weiter.
Natürlich verschiedene Reboots gemacht...

Gruß
Christoph
 
root@pve04:~# pvecm status
Quorum information
------------------
Date: Mon Nov 5 13:15:59 2018
Quorum provider: corosync_votequorum
Nodes: 1
Node ID: 0x00000004
Ring ID: 4/5904
Quorate: Yes

Votequorum information
----------------------
Expected votes: 1
Highest expected: 1

Total votes: 1
Quorum: 1
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000004 1 192.168.30.14 (local)

Hmm, sicher das pve4 und die anderen die selbige corosync.conf haben? Also /etc/pve/corosync.conf und /etc/corosync/corosync.conf - letztere wird zum starten verwendet, normal wird dann die von /etc/pve rüber gesynced, funktioniert aber nur bei schon bestehenden corosync cluster, also für solche Probleme bitte beide Kontrollieren.

Bei dir schaut's aber so aus als hättest du zwar irgendwie pve04 in den cluster gejoined, aber pve04 weiß selber noch nichts davon...
 
Hallo,

root@pve04:/# diff /etc/corosync/corosync.conf /etc/pve/corosync.conf
root@pve04:/# diff /etc/corosync/corosync.conf ^Ctc/pve/corosync.conf
root@pve04:/# scp pve01:/etc/pve/corosync.conf /root/corosync-pve01-1
corosync.conf 100% 665 811.7KB/s 00:00
root@pve04:/# scp pve01:/etc/corosync/corosync.conf /root/corosync-pve01-2
corosync.conf 100% 665 1.2MB/s 00:00
root@pve04:/# diff /etc/corosync/corosync.conf /root/corosync-pve01-1
root@pve04:/# diff /etc/corosync/corosync.conf /root/corosync-pve01-2
root@pve04:/# diff /etc/pve/corosync.conf /root/corosync-pve01-2
root@pve04:/# scp pve02:/etc/corosync/corosync.conf /root/corosync-pve02-2
corosync.conf 100% 665 1.2MB/s 00:00
root@pve04:/# scp pve02:/etc/pve/corosync.conf /root/corosync-pve02-1
corosync.conf 100% 665 914.9KB/s 00:00
root@pve04:/# scp pve03:/etc/pve/corosync.conf /root/corosync-pve03-1
corosync.conf 100% 665 778.7KB/s 00:00
root@pve04:/# scp pve03:/etc/corosync/corosync.conf /root/corosync-pve03-2
corosync.conf 100% 665 1.1MB/s 00:00
root@pve04:/# cd root/
root@pve04:~# diff /etc/pve/corosync.conf corosync-pve02-1
root@pve04:~# diff /etc/pve/corosync.conf corosync-pve02-2
root@pve04:~# diff /etc/pve/corosync.conf corosync-pve03-2
root@pve04:~# diff /etc/pve/corosync.conf corosync-pve03-1

also wie man sieht sind alle acht corosync.conf identisch
 
Ergänzung:
Im Syslog taucht nur auf, dass corosync durchgehend versucht einen cluster zu formen...

Nov 5 15:51:56 pve04 corosync[3129]: [MAIN ] Completed service synchronization, ready to provide service.
Nov 5 15:51:59 pve04 corosync[3129]: notice [TOTEM ] A new membership (192.168.30.14:18092) was formed. Members
Nov 5 15:51:59 pve04 corosync[3129]: [TOTEM ] A new membership (192.168.30.14:18092) was formed. Members
Nov 5 15:51:59 pve04 corosync[3129]: warning [CPG ] downlist left_list: 0 received
Nov 5 15:51:59 pve04 corosync[3129]: notice [QUORUM] Members[1]: 4
Nov 5 15:51:59 pve04 corosync[3129]: notice [MAIN ] Completed service synchronization, ready to provide service.
Nov 5 15:51:59 pve04 corosync[3129]: [CPG ] downlist left_list: 0 received
Nov 5 15:51:59 pve04 corosync[3129]: [QUORUM] Members[1]: 4
Nov 5 15:51:59 pve04 corosync[3129]: [MAIN ] Completed service synchronization, ready to provide service.
 
Hmm, sicher das pve4 und die anderen die selbige corosync.conf haben? Also /etc/pve/corosync.conf und /etc/corosync/corosync.conf - letztere wird zum starten verwendet, normal wird dann die von /etc/pve rüber gesynced, funktioniert aber nur bei schon bestehenden corosync cluster, also für solche Probleme bitte beide Kontrollieren.

Bei dir schaut's aber so aus als hättest du zwar irgendwie pve04 in den cluster gejoined, aber pve04 weiß selber noch nichts davon...

Hallo, leider konnte ich mein Problem nach wie vor nicht lösen. Irgend eine Idee?

Gruß
Christoph
 
Hm, meistens sind die Probleme tatsächlich in fehlenden/falschen Einträgen in der corosync.conf /etc/hosts begründet.
omping auf allen nodes (gleichzeitig) mit den short hostnames starten, ist immer meine strategie um herauszufinden, ob da alles soweit klappt.

Ansonsten kann es hilfreich sein mal mit tcpdump den traffic mitzuschneiden und im wireshark anzusehen.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!