HA bei defekter Festplatte

kieselbert · Mar 15, 2024

Ich habe ein Setup mit 3 Knoten. Auf jedem Knoten gibt es u.A. ein ZFS das überall gleich heißt. Für die VMs ist HA aktiviert und es gibt ReplicationsJobs die den Inhalt auf den ZFSs gleich halten. Soweit so gut.
Jetzt ist mir auf einem Knoten (auf dem die VM auch lief) das ZFS ausgefallen, leider komplett, denke der Controller ist hinüber. Was macht HA dann, es probiert die VM auf einen anderen Knoten zu migrieren und fällt dabei natürlich auf die Nase.
Jetzt frag ich mich natürlich was mir mein HA überhaupt bringt. Das ist aber nicht die Frage die ich stellen will, sondern ich würde gern wissen wie ich die VM manuell auf einen anderen Knoten umziehen kann. Es gibt dort ja das gleiche Laufwerk, die Replication ist 2h alt (völlig ausreichend) und ich will einfach nur die VM wieder hochfahren.
Wie ist da der "normale" Weg, das muss in so einem Setup doch vorgesehen sein.

Proxmox 7.4-17

kieselbert · Mar 15, 2024

Ok, war am Ende doch recht leicht.
Einfach die
/etc/pve/nodes/<Knoten1>/qemu-server/100.conf
nach
/etc/pve/nodes/<Knoten2>/qemu-server/100.conf
kopieren und VM starten. Hat dann sofort geklappt, nur über die Weboberfläche ist da nix zu machen.
(geht auch mit Containern /etc/pve/nodes/<Knoten1>/lxc/100.conf)

Falk R. · Mar 15, 2024

Wollte ich gerade auch schreiben. HA hilft dir beim Ausfall eines Storages nicht ganz so viel. Ist eher für den Ausfall des Knoten gedacht.
Die VM bleibt ja erst einal eingeschaltet auch wenn das Storage mal nicht erreichbar ist. Der Host weiß ja nicht ob das nur kurz weg ist und nach paar Sekunden wiederkommt.
Wenn du die VM killst, sollte HA die auf einem anderen Node starten.

kieselbert · Mar 15, 2024

Falk R. said:
Wenn du die VM killst, sollte HA die auf einem anderen Node starten.

Genau das funktioniert eben leider nicht. HA bemerkt das die VM nicht läuft und startet eine Migration die dann natürlich fehlschlägt.
Ich kanns ja verstehen, mit einer (zumindest etwas) veralteten Replication weiterzuarbeiten ist nicht immer günstig, aber irgendwie macht für mich so HA keinen Sinn.

Falk R. · Mar 15, 2024

Wenn du mit HA nur einen Controllerausfall abfangen willst, ist HA nicht das richtige.
Bei Enterprise Hardware passiert soetwas extrem selten. Habe ich jetzt 3x in 20 Jahren als Dienstleister erlebt. Normalerweise fängt man mit HA komplette Serverausfälle oder Netzwerkausfälle ab. Da funktioniert HA genau so wie es gedacht ist. Welche Fehler du abfangen willst, kannst nur du entscheiden.

kieselbert · Mar 15, 2024

Falk R. said:
Wenn du mit HA nur einen Controllerausfall abfangen willst, ist HA nicht das richtige.
Bei Enterprise Hardware passiert soetwas extrem selten. Habe ich jetzt 3x in 20 Jahren als Dienstleister erlebt. Normalerweise fängt man mit HA komplette Serverausfälle oder Netzwerkausfälle ab. Da funktioniert HA genau so wie es gedacht ist. Welche Fehler du abfangen willst, kannst nur du entscheiden.

Mir fehlt da irgendwie eine Funktion oder Konfig in der ich festlegen kann "wenn Migration nicht möglich, dann auf anderem Knoten mit den replizierten Daten weiterarbeiten". Ist nun bei mir schon der zweite Ausfall, zugegeben in 6 Jahren, bei dem HA fehlschlägt. Beim ersten mal wars mein Fehler und im ZFS Pool war nur eine Disk und die ist verreckt. Problem war aber identisch, die VM stürzt ab, Proxmox versucht zu migrieren, scheitert, feierabend. Langsam würd ich mich mal freuen einen Ausfall zu erleben bei dem mein HA Setup einfach mal die VM verschiebt und weitermacht. Nee, so isses schon ganz gut, bin ja eigentlich zufrieden ;-)

Search

Search

HA bei defekter Festplatte

kieselbert

Member

kieselbert

Member

Falk R.

Distinguished Member

kieselbert

Member

Falk R.

Distinguished Member

kieselbert

Member