Node aus bevor Migration zu Ende

Aug 13, 2024
5
0
1
Hallo Zusammen,

Im Proxmox Cluster ist eingestellt dass VMs über HA migrieren sollen, wenn ein Knoten down ist. Dies hat allerdings bei einer Node mit vielen VMs zu einem unerwarteten Verhalten geführt. Die Migration ging sehr lange, und bei ca. 50-75% migrierten VMs ist der Knoten einfach offline gegangen, ohne die restlichen VMs zu migieren. Dies hat fatalerweise zu einem Ausfall der restlich verbliebenden VMs auf dem Knoten geführt. Bei Knoten mit geringerer VM Last ist dies nicht passiert.

Warum hat Proxmox nicht gewartet bis alle VMs über HA migriert werden? In der GUI sehe ich hier auch keine Einstellungen zu Timeouts oder ähnlichem, die zu diesem Problem führen könnten.

LG
 
Hi, warum geht denn die Migration so langsam?
Eventuell falsches Netzwerkdesign und der Node ist ins Fencing gelaufen? Check mal die Logs.
 
1728593774494.png


Die Node scheint in der Tat nach einiger Zeit ins Fencing gelaufen zu sein, dies scheint allerdings daran zu liegen dass der Migrationsvorgang so lange läuft?

Allerdings sollte die Node doch trotzdem erst neustarten wenn alle VMS migriert sind. Die Migration findet tatsächlich über das Gigabit Interface (management) statt, statt über dem schnellen Storage Netz . Kann man dies nachträglich anpassen?

Mir ist trotzdem noch nicht ganz klar wie es zu diesem Problem kommt.
 
Die Node scheint in der Tat nach einiger Zeit ins Fencing gelaufen zu sein, dies scheint allerdings daran zu liegen dass der Migrationsvorgang so lange läuft?

Allerdings sollte die Node doch trotzdem erst neustarten wenn alle VMS migriert sind. Die Migration findet tatsächlich über das Gigabit Interface (management) statt, statt über dem schnellen Storage Netz . Kann man dies nachträglich anpassen?

Mir ist trotzdem noch nicht ganz klar wie es zu diesem Problem kommt.
Wenn du kein Migrationsnetzwerk unter Datacenter konfiguriert hast, nutzt du für Migrationen das Management Netzwerk.

Ich vermute du hast für Corosync das Management Netzwerk genutzt (was nicht empfohlen ist) und keinen zweiten Ring definiert (was empfohlen wird).
Wenn du dann das Management mit Miogrationen voll auslastest, gehen die Latenzen los und Corosync verliert die Verbindung zu den anderen Nodes. Dann wartet der Dienst noch eine Minute und wenn das Netzwerk bis dahin nicht wieder sauber ist geht er wie gewünscht ins Fencing.
Also hat der der Host genau das getan was konfiguriert ist.
 
  • Like
Reactions: janis.mueller
Folgefrage: Ist es empfohlen für die Migration das Storagenetz zu nutzen? Oder kann durch die Migration schnell die volle Bandbreite verbraucht werden und eine Einbüßung der Performance verursachen? (25G und 10G Schnittstellen)
 
Last edited:
Folgefrage: Ist es empfohlen für die Migration das Storagenetz zu nutzen? Oder kann durch die Migration schnell die volle Bandbreite verbraucht werden und eine Einbüßung der Performance verursachen? (25G und 10G Schnittstellen)
Wie du richtig erkannt hast, kann das natürlich auch zu Impacts fürhren, aber dann in der Regel nur Performance Impact.
Wenn du es Perfekt haben möchtest, machst du ein dediziertes Corosync Netzwerk (GBit) und ein extra Migrations Netzwerk.
Da in der Praxis nicht immer genügend ports vorhanden sind, muss man den Weg des geringsten Übels finden.
Ich kenne die Aussatttung deiner Server nicht.
Hier mal ein Beispiel eines kleinen 3 Node Clusters wo wir auch nicht genügend NICs haben:
Wir haben 2x 25G für LAN/Management da läuft die Migration mit drüberund der zweite Corosync Link (ring1).
Dann haben wir 2x 100G für Ceph, da ist die Latenz in der Regel geringer, deshalb habe ich da Corosync ring0 mit drauf.
Die Migration lege ich lieber mit aufs LAN, dass wenn das die Leitung komplett dcht ist, merkt der User das zwar, aber die VMs haben kein Problem beim Storagezugriff.
Wenn du hast, dann nutze eine dedizierte NIC für Corosync.
Migration über das Storagenetz könnte eine Option sein, aber du musst dir bewusst sein, das es in dem Moment auch mal auf den Disks langsam werden kann.
 
  • Like
Reactions: janis.mueller

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!