Heyho zusammen,
ich hatte gerade ein ganz speziellen Fehler.
Ich habe an einem Außenstandort einen Proxmox-Host mit einigen VMs stehen. Ich habe nun endlich Hardware für den zweiten Host vor Ort und wollte ein Cluster erstellen.
Auf der bereits konfigurierten Node habe ich über die Web-GUI ein Cluster erstellen wollen. Habe die Links (ich nutze zwei Corosync-Netzen) angelegt. Per simplen Ping auf die andere Node habe ich vorher auch überprüft, dass die beiden NICs über diese Netze kommunizieren können.
Das Task lief auch mit "OK" sauber durch. Alle VMs waren kurz mit einem Fragezeichen versehen. Aber dann wieder grün. Als ich dann die Join-Information abrufen wollte hat die Web-Gui nicht mehr funktioniert.
Der Server war plötzlich am rebooten.
Server kam nach kurzer Zeit wieder hoch. Cluster war immer noch erstellt. VMs liefen wieder an etc.
Im Journal finde ich nur einige dieser Fehlermeldungen:
kvm_intel: kvm [554381]: vcpu1, guest rIP: 0xfffff8056e7c97d2 Unhandled WRMSR(0x1d9) = 0x1
Journal für Corosync:
Seit dem reboot läuft der Host ohne Probleme. Davor lief er auch seit Mai ohne Schwierigkeiten.
Ich kann mir vorstellen, das es erneut passiert, sobald ich versuche die zweite Node zum Cluster zu adden.
PVE Version ist die 9.1.9
ich hatte gerade ein ganz speziellen Fehler.
Ich habe an einem Außenstandort einen Proxmox-Host mit einigen VMs stehen. Ich habe nun endlich Hardware für den zweiten Host vor Ort und wollte ein Cluster erstellen.
Auf der bereits konfigurierten Node habe ich über die Web-GUI ein Cluster erstellen wollen. Habe die Links (ich nutze zwei Corosync-Netzen) angelegt. Per simplen Ping auf die andere Node habe ich vorher auch überprüft, dass die beiden NICs über diese Netze kommunizieren können.
Das Task lief auch mit "OK" sauber durch. Alle VMs waren kurz mit einem Fragezeichen versehen. Aber dann wieder grün. Als ich dann die Join-Information abrufen wollte hat die Web-Gui nicht mehr funktioniert.
Der Server war plötzlich am rebooten.
Server kam nach kurzer Zeit wieder hoch. Cluster war immer noch erstellt. VMs liefen wieder an etc.
Im Journal finde ich nur einige dieser Fehlermeldungen:
kvm_intel: kvm [554381]: vcpu1, guest rIP: 0xfffff8056e7c97d2 Unhandled WRMSR(0x1d9) = 0x1
Journal für Corosync:
Code:
May 04 16:15:23 Server-01 systemd[1]: corosync.service - Corosync Cluster Engine was skipped because of an unmet condition check (ConditionPathExists=/etc/corosync/corosync.conf).
Jun 10 18:43:28 Server-01 systemd[1]: corosync.service - Corosync Cluster Engine was skipped because of an unmet condition check (ConditionPathExists=/etc/corosync/corosync.conf).
Jun 10 18:43:39 Server-01 systemd[1]: Starting corosync.service - Corosync Cluster Engine...
Jun 10 18:43:39 Server-01 (corosync)[1026481]: corosync.service: Referenced but unset environment variable evaluates to an empty string: COROSYNC_OPTIONS
Jun 10 18:43:39 Server-01 corosync[1026481]: [MAIN ] Corosync Cluster Engine starting up
Jun 10 18:43:39 Server-01 corosync[1026481]: [MAIN ] Corosync built-in features: dbus monitoring watchdog augeas systemd xmlconf vqsim nozzle snmp pie relro bindnow
Jun 10 18:43:39 Server-01 corosync[1026481]: [TOTEM ] Initializing transport (Kronosnet).
Jun 10 18:43:39 Server-01 corosync[1026481]: [TOTEM ] totemknet initialized
Jun 10 18:43:39 Server-01 corosync[1026481]: [KNET ] pmtud: MTU manually set to: 0
Jun 10 18:43:39 Server-01 corosync[1026481]: [KNET ] common: crypto_nss.so has been loaded from /usr/lib/x86_64-linux-gnu/kronosnet/crypto_nss.so
Jun 10 18:43:40 Server-01 corosync[1026481]: [SERV ] Service engine loaded: corosync configuration map access [0]
Jun 10 18:43:40 Server-01 corosync[1026481]: [QB ] server name: cmap
Jun 10 18:43:40 Server-01 corosync[1026481]: [SERV ] Service engine loaded: corosync configuration service [1]
Jun 10 18:43:40 Server-01 corosync[1026481]: [QB ] server name: cfg
Jun 10 18:43:40 Server-01 corosync[1026481]: [SERV ] Service engine loaded: corosync cluster closed process group service v1.01 [2]
Jun 10 18:43:40 Server-01 corosync[1026481]: [QB ] server name: cpg
Jun 10 18:43:40 Server-01 corosync[1026481]: [SERV ] Service engine loaded: corosync profile loading service [4]
Jun 10 18:43:40 Server-01 corosync[1026481]: [SERV ] Service engine loaded: corosync resource monitoring service [6]
Jun 10 18:43:40 Server-01 corosync[1026481]: [WD ] Watchdog not enabled by configuration
Jun 10 18:43:40 Server-01 corosync[1026481]: [WD ] resource load_15min missing a recovery key.
Jun 10 18:43:40 Server-01 corosync[1026481]: [WD ] resource memory_used missing a recovery key.
Jun 10 18:43:40 Server-01 corosync[1026481]: [WD ] no resources configured.
Jun 10 18:43:40 Server-01 corosync[1026481]: [SERV ] Service engine loaded: corosync watchdog service [7]
Seit dem reboot läuft der Host ohne Probleme. Davor lief er auch seit Mai ohne Schwierigkeiten.
Ich kann mir vorstellen, das es erneut passiert, sobald ich versuche die zweite Node zum Cluster zu adden.
PVE Version ist die 9.1.9
Last edited: