Cluster kaputt nach Switchreboot

HBO

Active Member
Dec 15, 2014
274
15
38
Germany
Hallo,

nachdem unser Switch leider einen Reboot benötigte scheint es den Proxmox Cluster komplett durcheinander gebracht zu haben. Der Cluster war anfangs gar nicht mehr funktional und ist nun irgendwie aufgeteilt worden.

Derzeit laufen 2 Versionierungen:
proxmox-ve: 4.3-72 (running kernel: 4.4.59-1-pve)
pve-manager: 4.3-12 (running version: 4.3-12/6894c9d9)
pve-kernel-4.4.6-1-pve: 4.4.6-48
pve-kernel-4.4.13-2-pve: 4.4.13-58
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.4.59-1-pve: 4.4.59-87
pve-kernel-4.2.8-1-pve: 4.2.8-41
pve-kernel-4.4.24-1-pve: 4.4.24-72
pve-kernel-4.2.2-1-pve: 4.2.2-16
pve-kernel-4.2.3-2-pve: 4.2.3-22
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-47
qemu-server: 4.0-96
pve-firmware: 1.1-10
libpve-common-perl: 4.0-83
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-68
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.3-17
pve-qemu-kvm: 2.7.0-8
pve-container: 1.0-85
pve-firewall: 2.0-31
pve-ha-manager: 1.0-38
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.6-1
lxcfs: 2.0.5-pve1
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
fence-agents-pve: not correctly installed
proxmox-ve: 4.3-72 (running kernel: 4.4.21-1-pve)
pve-manager: 4.3-12 (running version: 4.3-12/6894c9d9)
pve-kernel-4.4.6-1-pve: 4.4.6-48
pve-kernel-3.10.0-5-pve: 3.10.0-19
pve-kernel-4.4.13-2-pve: 4.4.13-58
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.2.8-1-pve: 4.2.8-41
pve-kernel-3.10.0-8-pve: 3.10.0-30
pve-kernel-4.4.24-1-pve: 4.4.24-72
pve-kernel-4.2.2-1-pve: 4.2.2-16
pve-kernel-4.2.3-2-pve: 4.2.3-22
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-47
qemu-server: 4.0-96
pve-firmware: 1.1-10
libpve-common-perl: 4.0-83
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-68
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.3-17
pve-qemu-kvm: 2.7.0-8
pve-container: 1.0-85
pve-firewall: 2.0-31
pve-ha-manager: 1.0-38
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.6-1
lxcfs: 2.0.5-pve1
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
fence-agents-pve: not correctly installed

Aktuell sieht die Cluster Verteilung so aus:
1)Master Node "proxmox" ist alleine und hat kein quorum
Quorum information
------------------
Date: Mon May 15 14:37:12 2017
Quorum provider: corosync_votequorum
Nodes: 1
Node ID: 0x00000001
Ring ID: 1/1133224
Quorate: No

Votequorum information
----------------------
Expected votes: 12
Highest expected: 12
Total votes: 1
Quorum: 7 Activity blocked
Flags:

Membership information
----------------------
Nodeid Votes Name
0x00000001 1 10.0.10.10 (local)
2) weitere 6 Nodes sehen so aus
Quorum information
------------------
Date: Mon May 15 14:38:06 2017
Quorum provider: corosync_votequorum
Nodes: 6
Node ID: 0x00000002
Ring ID: 2/1133020
Quorate: Yes

Votequorum information
----------------------
Expected votes: 6
Highest expected: 6
Total votes: 6
Quorum: 4
Flags: Quorate

Membership information
----------------------
Nodeid Votes Name
0x00000002 1 10.0.10.12 (local)
0x0000000c 1 10.0.10.13
0x00000003 1 10.0.10.14
0x00000007 1 10.0.10.21
0x00000008 1 10.0.10.22
0x00000009 1 10.0.10.23
3) Und nochmal weitere 5 Nodes so:
Quorum information
------------------
Date: Mon May 15 14:39:47 2017
Quorum provider: corosync_votequorum
Nodes: 5
Node ID: 0x00000004
Ring ID: 4/1133144
Quorate: No

Votequorum information
----------------------
Expected votes: 12
Highest expected: 12
Total votes: 5
Quorum: 7 Activity blocked
Flags:

Membership information
----------------------
Nodeid Votes Name
0x00000004 1 10.0.10.15 (local)
0x00000005 1 10.0.10.16
0x00000006 1 10.0.10.17
0x0000000a 1 10.0.10.25
0x0000000b 1 10.0.10.26

Wie bekomme ich es nun hin, dass die 10.0.10.10 wieder der "Master" ist und die anderen Nodes diesem Cluster beitreten? Ein "pvecm node add 10.0.10.10 -f" klappt leider nicht "unable to copy ssh ID: cat: write error: Permission denied".
 
Hi,

also erstmal wir haben keinen Masternode.
Es gibt einen Cluster Ressource Manager der ein Master für HA ist der wird aber immer neu gewählt.

Du hast also 3 Teil Cluster wobei einer funktioniert (quorum hat) wobei sich die corosync.conf verändert hat (6 Nodes).
Der Punkt ist du hast wahrscheinlich 2 verschiedene corosync.conf

Kontrollier das mal und schick sie bitte.
Sie sind unter /etc/corosync/corosync.conf

Desweiteren ist es komisch das der 10.10.10.10 keine Verbindung mit dem 3 Teil aufnimmt mal multicast testen.
 
Last edited:
Hallo Wolfang,

Multipath hatte ich direkt getestet und ist auf allen Nodes vorhanden ohne Loss.

Hier die corosync.conf Files:
logging {
debug: off
to_syslog: yes
}

nodelist {
node {
name: mc1-node4
nodeid: 3
quorum_votes: 1
ring0_addr: mc1-node4
}

node {
name: mc2-node2
nodeid: 8
quorum_votes: 1
ring0_addr: mc2-node2
}

node {
name: proxmox
nodeid: 1
quorum_votes: 1
ring0_addr: proxmox
}

node {
name: mc2-node6
nodeid: 11
quorum_votes: 1
ring0_addr: mc2-node6
}

node {
name: mc2-node1
nodeid: 7
quorum_votes: 1
ring0_addr: mc2-node1
}

node {
name: mc1-node7
nodeid: 6
quorum_votes: 1
ring0_addr: mc1-node7
}

node {
name: mc1-node6
nodeid: 5
quorum_votes: 1
ring0_addr: mc1-node6
}

node {
name: mc1-node3
nodeid: 12
quorum_votes: 1
ring0_addr: mc1-node3
}

node {
name: mc1-node2
nodeid: 2
quorum_votes: 1
ring0_addr: mc1-node2
}

node {
name: mc2-node5
nodeid: 10
quorum_votes: 1
ring0_addr: mc2-node5
}

node {
name: mc1-node5
nodeid: 4
quorum_votes: 1
ring0_addr: mc1-node5
}

node {
name: mc2-node3
nodeid: 9
quorum_votes: 1
ring0_addr: mc2-node3
}

}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: clustername
config_version: 29
ip_version: ipv4
secauth: on
version: 2
interface {
bindnetaddr: 10.0.10.10
ringnumber: 0
}

}
logging {
debug: off
to_syslog: yes
}

nodelist {
node {
name: mc1-node4
nodeid: 3
quorum_votes: 1
ring0_addr: mc1-node4
}

node {
name: mc2-node2
nodeid: 8
quorum_votes: 1
ring0_addr: mc2-node2
}

node {
name: proxmox
nodeid: 1
quorum_votes: 1
ring0_addr: proxmox
}

node {
name: mc2-node6
nodeid: 11
quorum_votes: 1
ring0_addr: mc2-node6
}

node {
name: mc2-node1
nodeid: 7
quorum_votes: 1
ring0_addr: mc2-node1
}

node {
name: mc1-node7
nodeid: 6
quorum_votes: 1
ring0_addr: mc1-node7
}

node {
name: mc1-node6
nodeid: 5
quorum_votes: 1
ring0_addr: mc1-node6
}

node {
name: mc1-node3
nodeid: 12
quorum_votes: 1
ring0_addr: mc1-node3
}

node {
name: mc1-node2
nodeid: 2
quorum_votes: 1
ring0_addr: mc1-node2
}

node {
name: mc2-node5
nodeid: 10
quorum_votes: 1
ring0_addr: mc2-node5
}

node {
name: mc1-node5
nodeid: 4
quorum_votes: 1
ring0_addr: mc1-node5
}

node {
name: mc2-node3
nodeid: 9
quorum_votes: 1
ring0_addr: mc2-node3
}

}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: clustername
config_version: 29
ip_version: ipv4
secauth: on
version: 2
interface {
bindnetaddr: 10.0.10.10
ringnumber: 0
}

}
logging {
debug: off
to_syslog: yes
}

nodelist {
node {
name: mc1-node4
nodeid: 3
quorum_votes: 1
ring0_addr: mc1-node4
}

node {
name: mc2-node2
nodeid: 8
quorum_votes: 1
ring0_addr: mc2-node2
}

node {
name: proxmox
nodeid: 1
quorum_votes: 1
ring0_addr: proxmox
}

node {
name: mc2-node6
nodeid: 11
quorum_votes: 1
ring0_addr: mc2-node6
}

node {
name: mc2-node1
nodeid: 7
quorum_votes: 1
ring0_addr: mc2-node1
}

node {
name: mc1-node7
nodeid: 6
quorum_votes: 1
ring0_addr: mc1-node7
}

node {
name: mc1-node6
nodeid: 5
quorum_votes: 1
ring0_addr: mc1-node6
}

node {
name: mc1-node3
nodeid: 12
quorum_votes: 1
ring0_addr: mc1-node3
}

node {
name: mc1-node2
nodeid: 2
quorum_votes: 1
ring0_addr: mc1-node2
}

node {
name: mc2-node5
nodeid: 10
quorum_votes: 1
ring0_addr: mc2-node5
}

node {
name: mc1-node5
nodeid: 4
quorum_votes: 1
ring0_addr: mc1-node5
}

node {
name: mc2-node3
nodeid: 9
quorum_votes: 1
ring0_addr: mc2-node3
}

}

quorum {
provider: corosync_votequorum
}

totem {
cluster_name: clustername
config_version: 29
ip_version: ipv4
secauth: on
version: 2
interface {
bindnetaddr: 10.0.10.10
ringnumber: 0
}

}

Was ich nach dem Switch Reboot machen musste war "systemctl restart corosync" da dieser nicht mehr korrekt lief (alle Nodes im GUI offline). Anschließend hatte ich "pvedaemon" und "pve-cluster" neugestartet mit obigen Ergebniss.
 
Versuch mal pve-cluster auf allen nodes neu zu starten

systemctl restart pve-cluster.service
 
Das hatte ich schonmal gemacht. Und bekomme folgende Logausgaben:
May 16 07:17:09 proxmox systemd[1]: Stopping The Proxmox VE cluster filesystem...
May 16 07:17:09 proxmox pmxcfs[28162]: [main] notice: teardown filesystem
May 16 07:17:11 proxmox pveproxy[25791]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:11 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:11 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:11 proxmox pvedaemon[1677]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:11 proxmox pvedaemon[1677]: ipcc_send_rec failed: Connection refused
May 16 07:17:11 proxmox pvedaemon[1677]: ipcc_send_rec failed: Connection refused
May 16 07:17:11 proxmox pmxcfs[28162]: [main] notice: exit proxmox configuration filesystem (0)
May 16 07:17:11 proxmox systemd[1]: Starting The Proxmox VE cluster filesystem...
May 16 07:17:11 proxmox pmxcfs[29554]: [status] notice: update cluster info (cluster name deltapeak, version = 29)
May 16 07:17:11 proxmox pmxcfs[29554]: [dcdb] notice: members: 1/29554
May 16 07:17:11 proxmox pmxcfs[29554]: [dcdb] notice: all data is up to date
May 16 07:17:11 proxmox pmxcfs[29554]: [status] notice: members: 1/29554
May 16 07:17:11 proxmox pmxcfs[29554]: [status] notice: all data is up to date
May 16 07:17:12 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pvestatd[1530]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:12 proxmox pvestatd[1530]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pvestatd[1530]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pvestatd[1530]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pvestatd[1530]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox pvestatd[1530]: ipcc_send_rec failed: Connection refused
May 16 07:17:12 proxmox systemd[1]: Started The Proxmox VE cluster filesystem.
May 16 07:17:14 proxmox pve-ha-lrm[1701]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:15 proxmox pve-ha-crm[1683]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:20 proxmox pvedaemon[1676]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:25 proxmox pvedaemon[1678]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:19:34 proxmox pveproxy[25792]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:14 mc1-node2 systemd[1]: Stopping The Proxmox VE cluster filesystem...
May 16 07:17:14 mc1-node2 pmxcfs[6981]: [main] notice: teardown filesystem
May 16 07:17:15 mc1-node2 pvestatd[24893]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:15 mc1-node2 pvestatd[24893]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:15 mc1-node2 pvestatd[24893]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:15 mc1-node2 pvestatd[24893]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:15 mc1-node2 pvestatd[24893]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:15 mc1-node2 pvestatd[24893]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:16 mc1-node2 pmxcfs[6981]: [main] notice: exit proxmox configuration filesystem (0)
May 16 07:17:16 mc1-node2 systemd[1]: Starting The Proxmox VE cluster filesystem...
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: update cluster info (cluster name deltapeak, version = 29)
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: node has quorum
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039, 12/30647
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: starting data syncronisation
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: received sync request (epoch 2/7829/00000001)
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039, 12/30647
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: starting data syncronisation
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: received sync request (epoch 2/7829/00000001)
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: received all states
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: leader is 2/7829
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: synced members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039, 12/30647
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: start sending inode updates
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: sent all (0) updates
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [dcdb] notice: all data is up to date
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: received all states
May 16 07:17:16 mc1-node2 pmxcfs[7829]: [status] notice: all data is up to date
May 16 07:17:17 mc1-node2 pveproxy[29265]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:17 mc1-node2 pveproxy[29265]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:17 mc1-node2 pveproxy[29265]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:17 mc1-node2 pve-ha-crm[1801]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:17 mc1-node2 pve-ha-crm[1801]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:17 mc1-node2 pve-ha-crm[1801]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:17 mc1-node2 systemd[1]: Started The Proxmox VE cluster filesystem.
May 16 07:17:17 mc1-node2 pvedaemon[1881]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:17 mc1-node2 pvedaemon[1881]: <root@pam> end task UPID:mc1-node2:00001E7E:5FC53C29:591A8B5A:srvrestart:pve-cluster:root@pam: OK
May 16 07:17:20 mc1-node2 pve-ha-lrm[1781]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:24 mc1-node2 pvedaemon[1876]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:27 mc1-node2 pmxcfs[7829]: [status] notice: received log
May 16 07:17:27 mc1-node2 pveproxy[7694]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: starting data syncronisation
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [status] notice: members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [status] notice: starting data syncronisation
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: received sync request (epoch 2/7829/00000002)
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [status] notice: received sync request (epoch 2/7829/00000002)
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: received all states
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: leader is 2/7829
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: synced members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: start sending inode updates
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: sent all (0) updates
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [dcdb] notice: all data is up to date
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [status] notice: received all states
May 16 07:17:28 mc1-node2 pmxcfs[7829]: [status] notice: all data is up to date
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039, 12/31483
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: starting data syncronisation
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: received sync request (epoch 2/7829/00000003)
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [status] notice: members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039, 12/31483
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [status] notice: starting data syncronisation
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [status] notice: received sync request (epoch 2/7829/00000003)
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: received all states
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: leader is 2/7829
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: synced members: 2/7829, 3/2451, 7/18918, 8/7568, 9/21039
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: start sending inode updates
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: sent all (3) updates
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [dcdb] notice: all data is up to date
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [status] notice: received all states
May 16 07:17:29 mc1-node2 pmxcfs[7829]: [status] notice: all data is up to date
May 16 07:17:49 mc1-node2 pmxcfs[7829]: [status] notice: received log
May 16 07:17:50 mc1-node2 pveproxy[4022]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:19 mc1-node5 pmxcfs[19904]: [main] notice: exit proxmox configuration filesystem (0)
May 16 07:17:19 mc1-node5 systemd[1]: Starting The Proxmox VE cluster filesystem...
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [status] notice: update cluster info (cluster name deltapeak, version = 29)
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: members: 4/20935, 5/1107, 6/18072, 10/28637, 11/20364
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: starting data syncronisation
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: received sync request (epoch 4/20935/00000001)
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [status] notice: members: 4/20935, 5/1107, 6/18072, 10/28637, 11/20364
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [status] notice: starting data syncronisation
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [status] notice: received sync request (epoch 4/20935/00000001)
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: received all states
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: leader is 4/20935
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: synced members: 4/20935, 5/1107, 6/18072, 10/28637, 11/20364
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: start sending inode updates
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: sent all (0) updates
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [dcdb] notice: all data is up to date
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [status] notice: received all states
May 16 07:17:19 mc1-node5 pmxcfs[20935]: [status] notice: all data is up to date
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pvedaemon[5752]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pvedaemon[5752]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pvedaemon[5752]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:19 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pvedaemon[5752]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pvedaemon[5752]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pvedaemon[5752]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 pveproxy[14172]: ipcc_send_rec failed: Verbindungsaufbau abgelehnt
May 16 07:17:20 mc1-node5 systemd[1]: Started The Proxmox VE cluster filesystem.
May 16 07:17:21 mc1-node5 pve-ha-crm[5906]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:21 mc1-node5 pve-ha-lrm[5959]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:21 mc1-node5 pvestatd[6045]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:28 mc1-node5 pvedaemon[5751]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:34 mc1-node5 pmxcfs[20935]: [status] notice: received log
May 16 07:17:34 mc1-node5 pveproxy[10920]: ipcc_send_rec failed: Der Socket ist nicht verbunden
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: members: 4/20935, 6/18072, 10/28637, 11/20364
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: starting data syncronisation
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [status] notice: members: 4/20935, 6/18072, 10/28637, 11/20364
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [status] notice: starting data syncronisation
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: received sync request (epoch 4/20935/00000002)
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [status] notice: received sync request (epoch 4/20935/00000002)
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: received all states
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: leader is 4/20935
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: synced members: 4/20935, 6/18072, 10/28637, 11/20364
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: start sending inode updates
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: sent all (0) updates
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [dcdb] notice: all data is up to date
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [status] notice: received all states
May 16 07:17:35 mc1-node5 pmxcfs[20935]: [status] notice: all data is up to date
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: members: 4/20935, 5/2074, 6/18072, 10/28637, 11/20364
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: starting data syncronisation
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: received sync request (epoch 4/20935/00000003)
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [status] notice: members: 4/20935, 5/2074, 6/18072, 10/28637, 11/20364
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [status] notice: starting data syncronisation
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [status] notice: received sync request (epoch 4/20935/00000003)
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: received all states
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: leader is 4/20935
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: synced members: 4/20935, 5/2074, 6/18072, 10/28637, 11/20364
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: start sending inode updates
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: sent all (0) updates
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [dcdb] notice: all data is up to date
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [status] notice: received all states
May 16 07:17:36 mc1-node5 pmxcfs[20935]: [status] notice: all data is up to date
May 16 07:17:54 mc1-node5 pmxcfs[20935]: [status] notice: received log
May 16 07:17:54 mc1-node5 pveproxy[15142]: ipcc_send_rec failed: Der Socket ist nicht verbunden

Mich wundern vor allem diese Socket Fehler, eigentlich funktioniert alles (bis auf den aufgeteilten Cluster).
 
Bitte schick mal folgenden output von omping
muss auf allen drei nodes laufen.

Auf node 10.10.10.10
omping -c 10000 -i 0.001 -F -q 10.10.10.10 10.10.10.12 10.10.10.15

Auf node 10.10.10.12
omping -c 10000 -i 0.001 -F -q 10.10.10.10 10.10.10.12 10.10.10.15

Auf node 10.10.10.15
omping -c 10000 -i 0.001 -F -q 10.10.10.10 10.10.10.12 10.10.10.15
 
Hi,

Votequorum information
----------------------
Expected votes: 6
Highest expected: 6
Total votes: 6
Quorum: 4
Flags: Quorate


Das schaut komisch aus wurde mit `pvecm expected 6` die expected vote count runter gesetzt?
Entweder das oder die Konfiguration ist nicht mehr aktuell.

Sie müssen wissen das corosync eigentlich "/etc/corosync/corosync.conf" verwendet, /etc/pve/corosync.conf ist nur zum synchronisieren da.
Das Cluster Filesystem aktualisiert nach jeden update die lokale Version.
Können sie Kontrollieren ob diese auf allen Nodes gleich ist?
Am Besten nehmen sie eine Konfiguration Datei die alle Nodes enthält und fehlerfrei ist, erhöhen dort die "config_version" und kopieren diese auf alle nodes nach /etc/corosync/corosync.conf (und evtl. auch /etc/pve/corosync.conf )
Gefolgt von einem:
Code:
systemctl restart corosync pve-cluster

Auf allen nodes nach der reihe (nicht zugleich).

Ansonsten schaut stark danach aus als ob der Switch Multicast noch nicht überall durchleitet...

May 16 07:17:09 proxmox systemd[1]: Stopping The Proxmox VE cluster filesystem...
May 16 07:17:09 proxmox pmxcfs[28162]: [main] notice: teardown filesystem
May 16 07:17:11 proxmox pveproxy[25791]: ipcc_send_rec failed: Transport endpoint is not connected
May 16 07:17:11 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused
May 16 07:17:11 proxmox pveproxy[25791]: ipcc_send_rec failed: Connection refused

Die Warnungen sind "normal", die erste Zeile sagt dass das Cluster Filesystem gestoppt wurde, dann können andere Services mit diesen natürlich nicht mehr kommunizieren.
 
Code:
pvecm expected 1
hatte ich auf der 10.0.10.10 ausgeführt da der pve-cluster und corosync dort überhaupt nicht laufen wollten, aber auch nur dort. Nachdem ich nun
Code:
systemctl restart corosync pve-cluster
überall nacheinander ausgeführt hatte lief der Cluster wieder. Ich musste allerdings die Zertifikate (ich habe hier Let'sEncrypt Zertifikate im Einsatz) nochmal neu verteilen und pveproxy sowie pvedaemon neustarten.

Vielen Dank für die Hilfe.
 
Nach einer Wartung trat das Problem nun erneut auf. Dabei konnte ich dies nun aber auch genau reproduzieren.
Der Aufbau auf Switch Seite ist wie folgt:
1x HP 2530G Switch mit aktivem IGMP, hier hängt die Node mit 10.0.10.10 dran
2x HP 1810G Switches wobei die Nodes die jeweils an einem Switch hängen den eigenen Cluster wie vorab beschrieben aufgebaut haben

Die HP 1810G Switches haben kein konfigurierbares IGMP, unterstützen es aber. Nun aber zu dem doch etwas kuriosen:
Schalte ich auf allen Nodes "pve-firewall" ab, starte "corosync" und "pve-cluster" neu, so wird auch der Cluster wieder korrekt aufgebaut und ich kann anschließend "pve-firewall" wieder starten. Ist das ein Bug oder Feature von corosync?
 
Schalte ich auf allen Nodes "pve-firewall" ab, starte "corosync" und "pve-cluster" neu, so wird auch der Cluster wieder korrekt aufgebaut und ich kann anschließend "pve-firewall" wieder starten. Ist das ein Bug oder Feature von corosync?

Hmm, klingt eher danach als ob Firewall Regeln da dazwischen schießen, habt ihr solche konfiguriert? Eine UDP Regel könnte problematisch sein.
Wenn Firewall gestoppt ist kann corosync kommunizieren, und danach könnte dank connection-tracking diese zuvor aufgebauten Verbindungen bestehen bleiben, bis zum nächsten mal corosync neu gestartet wird, eine neue Verbindung aufbaut die dann von der pve-firewall blockiert wird. Ist jetzt mehr eine Theorie aber würde gut zu den Symptomen passen...
 
Also Firewall bezogen ist auf den Nodes selbst nichts eingetragen (bis auf ein ACCEPT für unser Monitoring aus einem anderen Netz), ansonsten nur VM spezifische Einstellungen aktiv.