Hallo,
ich habe versucht, eine vierte Node (Version 7.1.x, Debian 11) hinzuzufügen, was fehl schlug weil ich die IP von der neuen Node noch nicht in der Firewall eingetragen hatte. Kein Problem, dachte ich, aktualisierst du erstmal die alten Nodes und löschst dann die neue Node nochmal raus und fängst neu an.
Nach dem dist-upgrade und Reboot der alten Node, über die ich mit der neuen Node dem Cluster beitreten wollte, findet diese die anderen zwei Nodes nicht mehr (vorher lief das paar Monate ohne Probleme):
Die anderen zwei Nodes:
Auf dem neu gestarteten Node steht in der /var/log/syslog:
Aber das ist ja kein Fehler. Auf den anderen Nodes steht das gleiche.
Jemand eine Idee, wie ich das Problem lösen kann?
Ich vermute es liegt an der neuen Node. Wenn ich diese löschen will kommt:
Edit: nach einem
pvecm expected 2
konnte ich die Node löschen, läuft wieder.
ich habe versucht, eine vierte Node (Version 7.1.x, Debian 11) hinzuzufügen, was fehl schlug weil ich die IP von der neuen Node noch nicht in der Firewall eingetragen hatte. Kein Problem, dachte ich, aktualisierst du erstmal die alten Nodes und löschst dann die neue Node nochmal raus und fängst neu an.
Nach dem dist-upgrade und Reboot der alten Node, über die ich mit der neuen Node dem Cluster beitreten wollte, findet diese die anderen zwei Nodes nicht mehr (vorher lief das paar Monate ohne Probleme):
Code:
root@rigel-3 ~ # pvecm status
Cluster information
-------------------
Name: Example
Config Version: 38
Transport: knet
Secure auth: on
Quorum information
------------------
Date: Tue Feb 15 11:07:37 2022
Quorum provider: corosync_votequorum
Nodes: 1
Node ID: 0x00000002
Ring ID: 1.7864
Quorate: No
Votequorum information
----------------------
Expected votes: 4
Highest expected: 4
Total votes: 1
Quorum: 3 Activity blocked
Flags:
Membership information
----------------------
Nodeid Votes Name
0x00000002 1 3.3.3.3 (local)
root@rigel-3 ~ #
Die anderen zwei Nodes:
Code:
root@rigel-4 ~ # pvecm status
Cluster information
-------------------
Name: Example
Config Version: 38
Transport: knet
Secure auth: on
Quorum information
------------------
Date: Tue Feb 15 11:14:17 2022
Quorum provider: corosync_votequorum
Nodes: 2
Node ID: 0x00000001
Ring ID: 1.7863
Quorate: No
Votequorum information
----------------------
Expected votes: 4
Highest expected: 4
Total votes: 2
Quorum: 3 Activity blocked
Flags:
Membership information
----------------------
Nodeid Votes Name
0x00000001 1 4.4.4.4 (local)
0x00000003 1 5.5.5.5
root@rigel-4 ~ #
Auf dem neu gestarteten Node steht in der /var/log/syslog:
Code:
Feb 15 11:15:43 rigel-3 corosync[2742]: [QUORUM] Sync joined[2]: 1 3
Feb 15 11:15:43 rigel-3 corosync[2742]: [TOTEM ] A new membership (1.8173) was formed. Members
Feb 15 11:15:43 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 60
Feb 15 11:15:44 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 70
Feb 15 11:15:45 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 80
Feb 15 11:15:46 rigel-3 corosync[2742]: [TOTEM ] Token has not been received in 3227 ms
Feb 15 11:15:46 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 90
Feb 15 11:15:47 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 100
Feb 15 11:15:47 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retried 100 times
Feb 15 11:15:47 rigel-3 pmxcfs[2693]: [status] crit: cpg_send_message failed: 6
Feb 15 11:15:48 rigel-3 systemd[1]: session-31.scope: Succeeded.
Feb 15 11:15:48 rigel-3 pvestatd[2932]: status update time (150.264 seconds)
Feb 15 11:15:48 rigel-3 pve-firewall[2929]: firewall update time (30.047 seconds)
Feb 15 11:15:49 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 10
Feb 15 11:15:49 rigel-3 corosync[2742]: [TOTEM ] Token has not been received in 6931 ms
Feb 15 11:15:50 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 20
Feb 15 11:15:51 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 30
Feb 15 11:15:52 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 40
Feb 15 11:15:53 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 50
Feb 15 11:15:53 rigel-3 corosync[2742]: [QUORUM] Sync members[3]: 1 2 3
Feb 15 11:15:53 rigel-3 corosync[2742]: [QUORUM] Sync joined[2]: 1 3
Feb 15 11:15:53 rigel-3 corosync[2742]: [TOTEM ] A new membership (1.8187) was formed. Members
Feb 15 11:15:54 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 60
Feb 15 11:15:55 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 70
Feb 15 11:15:56 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 80
Feb 15 11:15:56 rigel-3 corosync[2742]: [TOTEM ] Token has not been received in 3227 ms
Feb 15 11:15:57 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 90
Feb 15 11:15:58 rigel-3 systemd[1]: Stopping User Manager for UID 1001...
Feb 15 11:15:58 rigel-3 systemd[30090]: Stopped target Main User Target.
Feb 15 11:15:58 rigel-3 systemd[30090]: Stopped target Basic System.
Feb 15 11:15:58 rigel-3 systemd[30090]: Stopped target Paths.
Feb 15 11:15:58 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retry 100
Feb 15 11:15:58 rigel-3 systemd[30090]: Stopped target Sockets.
Feb 15 11:15:58 rigel-3 pmxcfs[2693]: [status] notice: cpg_send_message retried 100 times
Feb 15 11:15:58 rigel-3 systemd[30090]: Stopped target Timers.
Feb 15 11:15:58 rigel-3 pmxcfs[2693]: [status] crit: cpg_send_message failed: 6
Feb 15 11:15:58 rigel-3 systemd[30090]: dirmngr.socket: Succeeded.
Aber das ist ja kein Fehler. Auf den anderen Nodes steht das gleiche.
Jemand eine Idee, wie ich das Problem lösen kann?
Ich vermute es liegt an der neuen Node. Wenn ich diese löschen will kommt:
Code:
root@rigel-3 ~ # pvecm delnode rigel-neu
cluster not ready - no quorum?
root@rigel-3 ~ # pvecm expected 1
Unable to set expected votes: CS_ERR_INVALID_PARAM
root@rigel-3 ~ #
Edit: nach einem
pvecm expected 2
konnte ich die Node löschen, läuft wieder.
Last edited: