Desaster recovery und (local-)directory storage + HA VMs in freeze...

Oct 27, 2022
109
13
23
Moin zusammen,

bin ja gerade am Proxmox testen und haben mir einen Cluster aufgebaut.
Gerade (unbeabsichtigt) mal ein desasterrecovery scenario am durchspielen - sprich einen Server unbrauchbar gemacht und neu aufsetzen müssen :(
Der Server ist aber nicht ausgefallen und einfach vom Netz verschwunden - ich konnte noch shutdown triggern - muss aber final dann doch hart ausschalten.

Verwundert war ich dann, dass die VMs und LXCs in einer HA Gruppe einfach in den freeze zustand fallen :( Erwartet hätte ich, dass diese auf eine andere Maschine Migrieren und weiter laufen zumindest die, welche CEPH als shared storage haben.
Das scheint aber per design nicht so zu sein. OK sei's drum aber die GUI bietet auch nicht an diese einfach forced zu migrieren (migrieren gibt es ja nur auf dem host und der ist offline). Wie ist dann das procedere, wenn man den Host nicht online bringen kann?

Ich habe dann den Host komplett neu aufgesetzt und wieder forced in den cluster eingefügt (gleicher name). Dann wurden zumindest die VMs auf dem CEPH neu gestartet.

Probleme habe ich noch mit einem local-directory storage. Zweite SSD die in allen Servern steckt und als Storage auf allen zu Verfügung gestellt wurde. Das Storage ist auch in storage.cfg drin. Aber der eigentliche mountpoint fehlt mir noch.

root@pve-hv-02:/media/chia-21# pvesm status
unable to activate storage 'local-directory' - directory is expected to be a mount point but is not mounted: '/mnt/pve/local-directory'
Name Type Status Total Used Available %
ceph-rep-vm rbd active 4904463834 741848538 4162615296 15.13%
local dir active 98497780 3580844 89867388 3.64%
local-directory dir inactive 0 0 0 0.00%
local-lvm lvmthin active 833396736 83339 833313396 0.01%
nfs-nas-01 nfs active 19394419712 7041923072 12352496640 36.31%
pve-hv-04-pbs-01 pbs active 9630100224 992202496 8637897728 10.30%
smb-nas-01 cifs active 19394419712 7041923072 12352496640 36.31%

durch vergleich mit einem der anderen server müsste das durch

root@pve-hv-01:/etc/systemd/system# cat 'mnt-pve-local\x2ddirectory.mount'
[Install]
WantedBy=multi-user.target

[Mount]
Options=defaults
Type=ext4
What=/dev/disk/by-uuid/3d9cb2aa-a5c2-4ccf-87c0-d2385a1cca73
Where=/mnt/pve/local-directory

[Unit]
Description=Mount storage 'local-directory' under /mnt/pve
erledigt werden - sehe ich das korrekt? oder muss ich noch an anderer Stelle nachpflegen. Zumindest scheint nach entsprechender Anpassung das System wieder zu funktionieren.

Was mich noch irritiiert hat: EIne Migration von VMs von dem Server war nicht möglich mit dem Begründung local-directory wäre nicht da. Wenn die VM dort gespeichert gewesen wäre, hätte ich es verstanden, aber die Resourcen waren alle auf dem CEPH. Warum sollte also ein wegmigrieren dann nicht gehen? Nachdem local-directory wieder online war ging MIgrieren von allen Maschinen wieder.

BTW: ja ich habe auch ein Backup - aber ich möchte das einmal manuell machen um im Fall des Falles dann auch gewappnet zu sein.
 
Last edited:
Kannst du das nochmal genau erklären wie das Herunterfahren der Node abgelaufen ist?
In einem `freeze` Zustand befinden sich VMs eigentlich nur bis die andere Node sicher gefenced wurde, oder wenn erwartet wird, dass sie gleich wieder online kommt (Reboot der Node). Daher wäre es wichtig den genauen Ablauf zu kennen.

Gab es womöglich ein CD Laufwerk mit einer ISO auf dem local Storage bei der Migration?
 
Ich hatte zu meiner Schande /usr/bin verschoben. dann ging nat. nicht mehr viel :(

Webserver war aber noch erreichbar von daher hatte ich Shutdown getriggert, um dann mit einer LiveCD zu reparieren.
Der shutdown hing dann aber (ja kann man evtl. auch erwarten) - also hartes poweroff.

Danach waren die VMs im freeze. Nein kein CD Laufwerk oder ähnliches. Disk auf dem CEPH, keine CD.

1668083205338.png

Ich habe dann den Server nicht repariert sondern neu aufgesetzt - dachte das wäre schneller wie rumdoktern bis es wieder läuft.
 
Dann kann es noch damit zusammenhängen, dass der Storage zwar lokal vorhanden war, auf der Target Seite jedoch nicht. In der Storage Config der Storage aber nicht auf die eine Node limitiert war. Dies verhindert dann auch eine Migration, da erwartet wird, dass alle Storages online und erreichbar sind, die auch konfiguriert sind.
 
Dem kann ich jetzt nicht folgen.
Wenn ich einen Server herunterfahre oder er ausfällt sind dessen mountpoints nat. nicht erreichbar. Deswegen liegen die HA VMs ja auch einem shared / replicated storage (CEPH in meinem Fall). Dann sehe ich keinen Grund warum eine MIgration nicht gehen sollte.
  • Ich hatte aber das Design so verstanden, dass wenn ich einen Server sauber herunterfahre (vergesse aber zu migrieren) gehen die VMs in freeze. Designannahme man startet den Server gleich wieder. Die Annahme finde ich Banane (aus meiner Sicht sollte dann auch alles was HA ist automatisch einen Failover machen), aber gut - das ist meine Meinung.
  • Stürzt der Rechner ab oder man zieht ein Kabel (sprich kein gewollter shutdown) gibt es ein HA failover.
Jetzt hatte ich eine Mischung aus beidem von daher war meine Frage ja nur. Wie komme ich aus dem Freeze zustand wieder raus. Auf disabled setzen und dann wieder auf startet (wie beim Error state)? Ich kam im Stress nicht auf die Idee ist mir gerade als potentielle Option eingefallen.
 
Der Migration Code aktiviert die konfigurierten Storages, wenn da also eines nicht vorhanden ist, gibt es ein Problem und die Migration bricht ab.

Zum HA Failover, hier war der Shutdown schon getriggered, die Node wurde dann aber abgewürgt. Somit blieb auch der entsprechende Zustand. Wenn die Node dann wieder booted, sollte der Freeze Status verschwinden sofern der pve-ha-lrm auch den passenden Zustand wieder hat. Eventuell gab es hier wo Probleme, da könnten die vollständigen Logs von der betroffenen und einer anderen Node helfen.

Grundsätzlich kann man mit auf `disabled` setzen und dann auf den gewünschten Zustand viel erreichen. Auf die schnelle kann ich jedoch nicht sagen, ob dies funktioniert. Es hängt womöglich auch vom Zustand des pve-ha-lrm zu dem Zeitpunkt ab. Werde versuchen so einen Zustand zu erreichen und es testen. Melde mich dann hier mit dem Ergebnis.
 
  • Like
Reactions: endurance
Habe es getestet, wenn eine VM oder ein CT im Zustand `freeze` ist, hilft nur das entfernen aus der HA Liste um den Zustand zu clearen.
Grundsätzlich sollte der Zustand aber wieder entsprechend zurückgesetzt werden, wenn die entsprechende Node erneut online kommt.
 
  • Like
Reactions: endurance

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!