Einer von 3 Servern ('server-02') im Cluster wurde durch Watchdog neugestartet. Die Ursache wird aktuell noch untersucht.
Kurz danach sind die beiden übrigen Server aber ebenfalls neugestartet.
für mich sieht es so aus als hätten sich server-01 und server-03 nicht mehr gefunden,
was Watchdog triggert und als sich beide wieder gefunden haben, konnte der Watchdog-Updater nicht sauber reaktiviert werden.
Hat jemand eine Idee, warum 1. sich beide Server nicht mehr gefunden haben könnten
und 2. warum der Watchdog nicht reaktiviert werden konnte?
EDIT:
das Netzwerk ist für Proxmox-Frontend/Ceph-Frontend, Ceph-Backend und die VMs jeweils als Bond (active-backup) ausgelegt,
wodurch ich Netzwerkprobleme mal ausschließen würde
Kurz danach sind die beiden übrigen Server aber ebenfalls neugestartet.
Code:
Feb 13 04:22:28 server-01 corosync[2282]: [QUORUM] Sync members[2]: 4 6
Feb 13 04:22:28 server-01 corosync[2282]: [QUORUM] Sync left[1]: 5
Feb 13 04:22:28 server-01 corosync[2282]: [QUORUM] Members[2]: 4 6
Feb 13 04:22:50 server-01 corosync[2282]: [QUORUM] Sync members[2]: 4 6
Feb 13 04:22:50 server-01 corosync[2282]: [QUORUM] Members[2]: 4 6
Feb 13 04:24:38 server-01 corosync[2282]: [QUORUM] Sync members[1]: 6
Feb 13 04:24:38 server-01 corosync[2282]: [QUORUM] Sync left[1]: 4
Feb 13 04:24:38 server-01 corosync[2282]: [QUORUM] This node is within the non-primary component and will NOT provide any services.
Feb 13 04:24:38 server-01 corosync[2282]: [QUORUM] Members[1]: 6
Feb 13 04:24:38 server-01 pmxcfs[463829]: [status] notice: node lost quorum
Feb 13 04:24:39 server-01 pve-ha-crm[491226]: status change slave => wait_for_quorum
Feb 13 04:25:12 server-01 pvescheduler[859420]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Feb 13 04:25:12 server-01 pvescheduler[859419]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Feb 13 04:25:21 server-01 watchdog-mux[2123]: client watchdog expired - disable watchdog updates
Feb 13 04:25:22 server-01 corosync[2282]: [QUORUM] Sync members[2]: 4 6
Feb 13 04:25:22 server-01 corosync[2282]: [QUORUM] Sync joined[1]: 4
Feb 13 04:25:22 server-01 corosync[2282]: [QUORUM] This node is within the primary component and will provide service.
Feb 13 04:25:22 server-01 corosync[2282]: [QUORUM] Members[2]: 4 6
Feb 13 04:25:22 server-01 pmxcfs[463829]: [status] notice: node has quorum
Feb 13 04:25:23 server-01 watchdog-mux[2123]: exit watchdog-mux with active connections
Feb 13 04:25:23 server-01 kernel: [37179171.019381] IPMI Watchdog: Unexpected close, not stopping watchdog!
Feb 13 04:25:23 server-01 systemd[1]: watchdog-mux.service: Succeeded.
Feb 13 04:25:23 server-01 systemd[1]: watchdog-mux.service: Consumed 21min 55.451s CPU time.
Feb 13 04:25:29 server-01 pve-ha-crm[491226]: status change wait_for_quorum => slave
Feb 13 04:25:33 server-01 pve-ha-lrm[491165]: watchdog update failed - Broken pipe
Code:
Feb 13 04:22:28 server-03 corosync[11041]: [QUORUM] Sync members[2]: 4 6
Feb 13 04:22:28 server-03 corosync[11041]: [QUORUM] Sync left[1]: 5
Feb 13 04:22:28 server-03 corosync[11041]: [QUORUM] Members[2]: 4 6
Feb 13 04:22:50 server-03 corosync[11041]: [QUORUM] Sync members[2]: 4 6
Feb 13 04:22:50 server-03 corosync[11041]: [QUORUM] Members[2]: 4 6
Feb 13 04:24:38 server-03 corosync[11041]: [QUORUM] Sync members[1]: 4
Feb 13 04:24:38 server-03 corosync[11041]: [QUORUM] Sync left[1]: 6
Feb 13 04:24:38 server-03 corosync[11041]: [QUORUM] This node is within the non-primary component and will NOT provide any services.
Feb 13 04:24:38 server-03 corosync[11041]: [QUORUM] Members[1]: 4
Feb 13 04:24:38 server-03 pmxcfs[2602990]: [status] notice: node lost quorum
Feb 13 04:24:45 server-03 pve-ha-crm[2631689]: watchdog closed (disabled)
Feb 13 04:24:45 server-03 pve-ha-crm[2631689]: status change lost_manager_lock => wait_for_quorum
Feb 13 04:25:14 server-03 pvescheduler[2604459]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Feb 13 04:25:14 server-03 pvescheduler[2604458]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Feb 13 04:25:21 server-03 watchdog-mux[2225]: client watchdog expired - disable watchdog updates
Feb 13 04:25:22 server-03 corosync[11041]: [QUORUM] Sync members[2]: 4 6
Feb 13 04:25:22 server-03 corosync[11041]: [QUORUM] Sync joined[1]: 6
Feb 13 04:25:22 server-03 corosync[11041]: [QUORUM] This node is within the primary component and will provide service.
Feb 13 04:25:22 server-03 corosync[11041]: [QUORUM] Members[2]: 4 6
Feb 13 04:25:22 server-03 pmxcfs[2602990]: [status] notice: node has quorum
Feb 13 04:25:23 server-03 watchdog-mux[2225]: exit watchdog-mux with active connections
Feb 13 04:25:23 server-03 kernel: [37120846.913243] IPMI Watchdog: Unexpected close, not stopping watchdog!
Feb 13 04:25:23 server-03 systemd[1]: watchdog-mux.service: Succeeded.
Feb 13 04:25:23 server-03 systemd[1]: watchdog-mux.service: Consumed 23min 2.257s CPU time.
Feb 13 04:25:25 server-03 pve-ha-crm[2631689]: ERROR: unable to open watchdog socket - No such file or directory
für mich sieht es so aus als hätten sich server-01 und server-03 nicht mehr gefunden,
was Watchdog triggert und als sich beide wieder gefunden haben, konnte der Watchdog-Updater nicht sauber reaktiviert werden.
Hat jemand eine Idee, warum 1. sich beide Server nicht mehr gefunden haben könnten
und 2. warum der Watchdog nicht reaktiviert werden konnte?
EDIT:
das Netzwerk ist für Proxmox-Frontend/Ceph-Frontend, Ceph-Backend und die VMs jeweils als Bond (active-backup) ausgelegt,
wodurch ich Netzwerkprobleme mal ausschließen würde
Last edited: