[SOLVED] Automatischer Neustart beim shutdown eines Cluster-Nodes

Seju

Member
Mar 25, 2020
5
1
8
33
blog.unixa.de
Hallo zusammen,

ich habe mit Proxmox eine interessante Konstellation und nun ein komisches Problem.

Proxmox läuft bei mir zuhause in einer "Aktiv / Standby" Konstellation.
Das bedeutet, ich habe einen Cluster Node der permanent läuft und einen zweiten, der ausgeschaltet ist.
Der ausgeschaltet wird durch ein drittes System automatisch gestartet, wenn ein Ausfall des aktiven Nodes erkannt wird.
Die VMs und LXC liegen auf einer Synology NAS damit dieser Speicher im Cluster zur Verfügung steht, also nichts lokal auf den Nodes.

Läuft super muss man sagen.

Aber mein Problem ist ein anderes.

Für manche Aktionen im Cluster starte ich vorher den Standby Node um im Cluster zu beiden Hosts parallel Konfigurationsänderungen durchzuführen.
Nun passiert es immer, wenn ich den Standby Host danach herunterfahre (egal ob über die GUI oder Shell), dass 2 Minuten später der aktive Node einen Neustart durchführt.

Ich konnte in den Logs bisher noch keine Erklärung für dieses Verhalten feststellen.

Auf beiden Nodes ist das aktuelle VE 6.2.11 installiert.

Jemand eine Idee?

Danke und Grüße

Seju
 
Guten Abend in die Runde,

heute habe ich mir das ganze nochmal angeschaut aber diesmal verbunden über die iLO Konsole um mir mal anzuschauen was beim Neustart passiert.
Ich habe davon mal ein Video gemacht und wie man sieht- sieht man nichts.
Es kommt kein Fehler und der Server macht einfach einen Neustart.

https://streamable.com/vixghr

Falls sich jemand das ganze anschauen möchte ...

Ich bin für jede hilfreiche Analysemöglichkeit oder Hinweis dankbar!

Grüße,

Seju
 
Nochmal guten Abend,
ich habe nun mal folgende Log Datei analysiert vor dem neustart



/var/log/daemon.log

Sep 4 18:59:33 uniXa-CLN101 pmxcfs[1258]: [status] notice: received log Sep 4 18:59:33 uniXa-CLN101 pmxcfs[1258]: [status] notice: received log Sep 4 18:59:42 uniXa-CLN101 pmxcfs[1258]: [dcdb] notice: members: 4/1258 Sep 4 18:59:42 uniXa-CLN101 pmxcfs[1258]: [status] notice: members: 4/1258 Sep 4 18:59:42 uniXa-CLN101 corosync[1679]: [TOTEM ] A new membership (4.1796) was formed. Members left: 3 Sep 4 18:59:42 uniXa-CLN101 corosync[1679]: [QUORUM] This node is within the non-primary component and will NOT provide any services. Sep 4 18:59:42 uniXa-CLN101 corosync[1679]: [QUORUM] Members[1]: 4 Sep 4 18:59:42 uniXa-CLN101 corosync[1679]: [MAIN ] Completed service synchronization, ready to provide service. Sep 4 18:59:42 uniXa-CLN101 pmxcfs[1258]: [status] notice: node lost quorum Sep 4 18:59:43 uniXa-CLN101 corosync[1679]: [KNET ] link: host: 3 link: 0 is down Sep 4 18:59:43 uniXa-CLN101 corosync[1679]: [KNET ] host: host: 3 (passive) best link: 0 (pri: 1) Sep 4 18:59:43 uniXa-CLN101 corosync[1679]: [KNET ] host: host: 3 has no active links Sep 4 18:59:44 uniXa-CLN101 pve-ha-crm[1823]: lost lock 'ha_manager_lock - cfs lock update failed - Permission denied Sep 4 18:59:48 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:49795->[127.0.0.1]:161 Sep 4 18:59:48 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:49795->[127.0.0.1]:161 Sep 4 18:59:48 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:36334->[127.0.0.1]:161 Sep 4 18:59:48 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:34285->[127.0.0.1]:161 Sep 4 18:59:49 uniXa-CLN101 pve-ha-crm[1823]: status change master => lost_manager_lock Sep 4 18:59:49 uniXa-CLN101 pve-ha-crm[1823]: watchdog closed (disabled) Sep 4 18:59:49 uniXa-CLN101 pve-ha-crm[1823]: status change lost_manager_lock => wait_for_quorum Sep 4 18:59:49 uniXa-CLN101 pve-ha-lrm[1833]: lost lock 'ha_agent_uniXa-CLN101_lock - cfs lock update failed - Permission denied Sep 4 18:59:50 uniXa-CLN101 pvestatd[1729]: status update time (5.101 seconds) Sep 4 18:59:54 uniXa-CLN101 pve-ha-lrm[1833]: status change active => lost_agent_lock Sep 4 19:00:00 uniXa-CLN101 systemd[1]: Starting Proxmox VE replication runner... Sep 4 19:00:01 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:02 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:02 uniXa-CLN101 vzdump[19249]: <root@pam> starting task UPID:uniXa-CLN101:00004B3B:0002827E:5F527292:vzdump::root@pam: Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: starting new backup job: vzdump 110 108 104 101 102 100 106 103 --node uniXa-CLN101 --storage NAS_Backup --quiet 1 --mode snapshot$ Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 100 (qemu) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 100 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/100.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 101 (qemu) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 101 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/101.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 102 (qemu) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 102 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/102.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 103 (qemu) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 103 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/103.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 104 (qemu) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 104 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/104.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 106 (lxc) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 106 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/lxc/106.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 108 (lxc) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 108 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/lxc/108.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Starting Backup of VM 110 (qemu) Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 110 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/110.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Backup job finished with errors Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: ERROR: Backup of VM 110 failed - unable to open file '/etc/pve/nodes/uniXa-CLN101/qemu-server/110.conf.tmp.19259' - Permission denied Sep 4 19:00:02 uniXa-CLN101 vzdump[19259]: INFO: Backup job finished with errors Sep 4 19:00:03 uniXa-CLN101 vzdump[19259]: job errors Sep 4 19:00:03 uniXa-CLN101 vzdump[19249]: <root@pam> end task UPID:uniXa-CLN101:00004B3B:0002827E:5F527292:vzdump::root@pam: job errors Sep 4 19:00:03 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:03 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:53207->[127.0.0.1]:161 Sep 4 19:00:03 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:53207->[127.0.0.1]:161 Sep 4 19:00:03 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:48841->[127.0.0.1]:161 Sep 4 19:00:03 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:37938->[127.0.0.1]:161 Sep 4 19:00:04 uniXa-CLN101 pvemailforward[19361]: forward mail to <info@unixa.de> Sep 4 19:00:04 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:05 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:06 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:07 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:08 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:09 uniXa-CLN101 pvesr[19236]: trying to acquire cfs lock 'file-replication_cfg' ... Sep 4 19:00:10 uniXa-CLN101 pvesr[19236]: error during cfs-locked 'file-replication_cfg' operation: no quorum! Sep 4 19:00:10 uniXa-CLN101 systemd[1]: pvesr.service: Main process exited, code=exited, status=13/n/a Sep 4 19:00:10 uniXa-CLN101 systemd[1]: pvesr.service: Failed with result 'exit-code'. Sep 4 19:00:10 uniXa-CLN101 systemd[1]: Failed to start Proxmox VE replication runner. Sep 4 19:00:19 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:45512->[127.0.0.1]:161 Sep 4 19:00:19 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:45512->[127.0.0.1]:161 Sep 4 19:00:19 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:46773->[127.0.0.1]:161 Sep 4 19:00:19 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:47414->[127.0.0.1]:161 Sep 4 19:00:34 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:40537->[127.0.0.1]:161 Sep 4 19:00:34 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:40537->[127.0.0.1]:161 Sep 4 19:00:34 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:51836->[127.0.0.1]:161 Sep 4 19:00:34 uniXa-CLN101 snmpd[710]: Connection from UDP: [127.0.0.1]:39698->[127.0.0.1]:161 Sep 4 19:00:40 uniXa-CLN101 watchdog-mux[518]: client watchdog expired - disable watchdog updates

Das waren die letzten Logs vor dem reboot, die nächsten Logs sind dann der start.
 
Ich habe die Lösung gefunden.

Nach einiger intensivere Recherche ist die Ursache Wohl der Watchdog von Corosync.
Für meine Konstellation (2 Node Cluster) muss in der Datei /etc/corosync/corosync.conf

Der Eintrag two_node: 1 ergänzt werden in der Zeile quorum

Am Ende sieht das wie folgt aus:


Code:
quorum {
provider: corosync_votequorum
two_node: 1
}
 
Hallo, bin gerade auch auf das Problem gestoßen und wollte nachfragen ob der Ansatz von Sejm immer noch nicht empfohlen bzw. unsupported ist, d.h. HA bei 2 Node Setup nicht geht?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!