Node in Cluster nach reboot mal grün mal grau

BerndKleinert · Sep 22, 2021

Hallo,

ich verstehs nicht. Ein Cluster mit 3 Nodes läuft seit Wochen problemlos. Jetzt machte ich ein Update und Reboot eines Nodes und der Node wird im Webinterface manchmal nicht wieder grün sondern bleibt rot und und darauf installierte VM's haben ein Fragezeichen. Ein journalctl -u pve-cluster zeigt:

Code:

Sep 22 09:26:00 Node1 pmxcfs[14079]: [main] notice: exit proxmox configuration filesystem (0)
Sep 22 09:26:00 Node1 systemd[1]: pve-cluster.service: Succeeded.
Sep 22 09:26:00 Node1 systemd[1]: Stopped The Proxmox VE cluster filesystem.
Sep 22 09:26:00 Node1 systemd[1]: pve-cluster.service: Consumed 2.665s CPU time.
Sep 22 09:26:00 Node1 systemd[1]: Starting The Proxmox VE cluster filesystem...
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: update cluster info (cluster name TestCluster, version = 37)
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: node has quorum
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: members: 1/870, 2/70302, 3/1051
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: starting data syncronisation
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: received sync request (epoch 1/870/0000000D)
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: members: 1/870, 2/70302, 3/1051
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: starting data syncronisation
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: received sync request (epoch 1/870/0000000D)
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: received all states
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: leader is 1/870
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: synced members: 1/870, 2/70302, 3/1051
Sep 22 09:26:00 Node1 pmxcfs[70302]: [dcdb] notice: all data is up to date
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: received all states
Sep 22 09:26:00 Node1 pmxcfs[70302]: [status] notice: all data is up to date
Sep 22 09:26:01 Node1 systemd[1]: Started The Proxmox VE cluster filesystem.
Sep 22 09:34:54 Node1 pmxcfs[70302]: [dcdb] notice: data verification successful
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found ordering cycle on rbdmap.service/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on remote-fs-pre.target/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on remote-fs.target/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on rrdcached.service/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on pve-cluster.service/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on ceph-mon@Node1.service/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on ceph-mon.target/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on ceph-osd.target/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Found dependency on ceph.target/stop
Sep 22 09:35:05 Node1 systemd[1]: ceph.target: Job rbdmap.service/stop deleted to break ordering cycle starting with ceph.target/stop
Sep 22 09:35:10 Node1 pmxcfs[70302]: [confdb] crit: cmap_dispatch failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [quorum] crit: quorum_dispatch failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [status] notice: node lost quorum
Sep 22 09:35:10 Node1 pmxcfs[70302]: [dcdb] crit: cpg_dispatch failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [dcdb] crit: cpg_leave failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [status] crit: cpg_dispatch failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [status] crit: cpg_leave failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [quorum] crit: quorum_initialize failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [quorum] crit: can't initialize service
Sep 22 09:35:10 Node1 pmxcfs[70302]: [confdb] crit: cmap_initialize failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [confdb] crit: can't initialize service
Sep 22 09:35:10 Node1 pmxcfs[70302]: [dcdb] notice: start cluster connection
Sep 22 09:35:10 Node1 pmxcfs[70302]: [dcdb] crit: cpg_initialize failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [dcdb] crit: can't initialize service
Sep 22 09:35:10 Node1 pmxcfs[70302]: [status] notice: start cluster connection
Sep 22 09:35:10 Node1 pmxcfs[70302]: [status] crit: cpg_initialize failed: 2
Sep 22 09:35:10 Node1 pmxcfs[70302]: [status] crit: can't initialize service
Sep 22 09:35:11 Node1 systemd[1]: Stopping The Proxmox VE cluster filesystem...
Sep 22 09:35:11 Node1 pmxcfs[70302]: [main] notice: teardown filesystem
Sep 22 09:35:11 Node1 pmxcfs[70302]: [quorum] crit: quorum_finalize failed: 9
Sep 22 09:35:11 Node1 pmxcfs[70302]: [confdb] crit: cmap_track_delete nodelist failed: 9
Sep 22 09:35:11 Node1 pmxcfs[70302]: [confdb] crit: cmap_track_delete version failed: 9
Sep 22 09:35:11 Node1 pmxcfs[70302]: [confdb] crit: cmap_finalize failed: 9
Sep 22 09:35:11 Node1 pmxcfs[70302]: [main] notice: exit proxmox configuration filesystem (0)
Sep 22 09:35:11 Node1 systemd[1]: pve-cluster.service: Succeeded.
Sep 22 09:35:11 Node1 systemd[1]: Stopped The Proxmox VE cluster filesystem.

Datum/Uhrzeit sind auf allen Nodes identisch.

Der genannte Node hat pveversion:

pve-manager/7.0-11/63d82f4e (running kernel: 5.11.22-4-pve)

Die anderen zwei:

pve-manager/6.4-13/9f411e79 (running kernel: 5.4.140-1-pve)
pve-manager/7.0-11/63d82f4e (running kernel: 5.11.22-4-pve)

Wenn ich mal wieder ein Reboot mache klappt eventuell wieder alles. Aber wenn ich dann nochmal ein reboot machen muss, klappt es danach wieder nicht mehr. Nach einem Reboot ist es manchmal so, dass der Node-Name rot ist aber die VM's auf der Node grün angezeigt sind, bis diese kurze Zeit später auch grau werden.

Wenn es nicht klappt, ist das Verzeichnis /etc/pve/ leer und das Webinterface von Node1 ist nicht erreichbar.

Hat jemand eine Idee, was hier schief läuft?

Stefan_R · Sep 22, 2021

BerndKleinert said:
pve-manager/7.0-11/63d82f4e (running kernel: 5.11.22-4-pve)

Die anderen zwei:

pve-manager/6.4-13/9f411e79 (running kernel: 5.4.140-1-pve)
pve-manager/7.0-11/63d82f4e (running kernel: 5.11.22-4-pve)

Nodes in einem cluster müssen auf der gleichen version sein, zumindest in Sachen major version (also PVE 6 und 7) ist das schon ein hard-requirement.

BerndKleinert · Sep 22, 2021

Stefan_R said:
Nodes in einem cluster müssen auf der gleichen version sein, zumindest in Sachen major version (also PVE 6 und 7) ist das schon ein hard-requirement.

Hmm, dh. auch wenn man >10 Server hat muss man die quasi alle an einem Tag von einem Release aufs nächste upgraden? Ob das immer so möglich ist..
Aber ich weiß schon was du meinst, ich werde versuchen so schnell wies geht alle auf die 7 hochzuziehen.

Search

Search

Node in Cluster nach reboot mal grün mal grau

BerndKleinert

Active Member

Stefan_R

Proxmox Retired Staff

BerndKleinert

Active Member