[SOLVED] ZFS (replication) Migration VM startet neu

Also ich habe neue Infos.
Das Problem tritt nur auf nach einer Migration von Node 1 auf Node 2.
Wenn ich dann die Server neu starten und von Node 2 auf Node 1 migriere funktioniert das problemlos.
Allerdings bleibt die Erkenntnis, wenn eine Migration durch ist funktioniert es auf dieser VM in beide Richtungen problemlos.
Und es ist auch egal ob die VM alle 30 Minuten Repliziert oder jede Minute mit beiden tritt das Verhalten genauso auf.
 
Last edited:
Habt ihr nur 1x 10G? Für Corosync solltest du ein dediziertes Netzwerk haben und ich mache das Migrationsnetzwerk auch immer dediziert.
 
Habt ihr nur 1x 10G? Für Corosync solltest du ein dediziertes Netzwerk haben und ich mache das Migrationsnetzwerk auch immer dediziert.
Ja nur 1x 10G. Mehr lohnt sich hier nicht es ist halt ein Heim Netzwerk. Ich könnte zwar ein weiteres dediziertes 2.5G Netzwerk aufbauen aber das nur wenn es unbedingt notwendig wäre.
 
Wenigstens ein zweites GBit Netzwerk. Wenn du migrierst, ist die Leitung dicht und Corosync mag das gar nicht.
 
Was mir gerade auch noch aufgefallen ist, dass die VM's manchmal auf Node 1 einfach Freezen. Also die Dienste die auf der VM laufen sind nicht mehr erreichbar und ich kann zwar auf dem Node die VM Konsole öffnen aber da geht auch nix mehr ist wie eingefrohren.
Also scheinen irgendwie alle Probleme vom Node 1 auszugehen.

Wenigstens ein zweites GBit Netzwerk. Wenn du migrierst, ist die Leitung dicht und Corosync mag das gar nicht.
Was macht denn Corosync genau? Könnte ich die Nodes auch direkt per Lan verbinden ohne Switch und was müsste ich konfigurieren?
 
Wenn du einen Cluster hast, wird über Corosync die Kommunikation zwischen den Nodes und der Sync von /etc/pve abgewickelt. So ein freeze kann vom corosync Dienst kommen, wenn er die anderen Nodes nicht erreicht.
Im Wiki wird das alles sehr gut erklärt.
Deshalb Corosync immer auf eine dedizierte Leitung legen. Wie viele Nodes hast du denn?
 
Dann steck mal ein Kabel und lege im Cluster den Ring 0 auf die Verbindung. Du kannst die 10G Nic ja als Ring1 mit drin lassen.
 
Dann steck mal ein Kabel und lege im Cluster den Ring 0 auf die Verbindung. Du kannst die 10G Nic ja als Ring1 mit drin lassen.
Hatte gerade die Server verbunden, bin essen gegangen und als ich wiedergekommen bin ist der erste Server wieder nicht erreichbar.
Ich kann ihn allerdings pingen das funktioniert. Aber ich komme nicht auf das Web Interface von Proxmox und wenn ich auf den zweiten Server gehe kann der keine Verbindung herstellen.
1700826669596.png
 
Klingt nach Corosync. Im log solltest du auch etwas dazu finden.
Wer macht denn bei dir das qdevice?
Hast du das Clusternetzwerk umkonfiguriert?
 
Also ich habe jetzt mal die Server direkt verbunden und dann eine Migration gemacht. Und es passiert immer noch das gleiche.
Ich habe auch mal einen Ping laufen lassen während der Migration.
Das 10.50.er ist das direkte und das 10.70.er läuft über den Switch:
1700829895445.png
Sieht eigentlich soweit gut aus würde ich sagen.
 
Also bei einem 2 Knoten Cluster brauchst du ein Entscheider um Split Brains zu vermeiden. Entweder mindestens 3 Knoten oder ein Quorum Device konfigurieren.
Hast du dir schon einmal das Wiki angeschaut?
https://pve.proxmox.com/wiki/Cluster_Manager
 
Noch nicht so extrem detailliert nein. Aber hat das Migration's und das "Netzwerk" Problem wirklich damit zu tun? Ich meine davor mit NFS und LVM lief ja auch alles und ich konnte da auch Migrationen durchführen ohne dass die Maschine neu gestartet hat.
Und es funktioniert ja auch aber halt irgendwie nicht 100% korrekt.
 
Du hast ja noch mehr I/O Delay durch die Nutzung von ZFS, das kann eventuell das quentchen mehr sein, was dann die Effekte auslöst.
 
Das ist aber unvollständig (du hast nur das Migrationslog und einmal journalctl von der VM gepostet). Mich würde hier mal das syslog von allen involvierten Maschinen interessieren, was während der Migration mitgeschrieben wird. Da lassen sich vielleicht entsprechende Anomalien erkennen die einen Rückschluss geben könnten. Vielleicht auch nicht. Aber ohne kann man immer nur spekulieren und nichts handfestes nachvollziehen.
Also ich habe jetzt einmal alle Logs der Systeme zu dem Zeitpunkt einer fehlerhaften Migration.
Die Migration war laut Proxmox fertig um 11:12:26
Vielleicht könnt ihr ja etwas erkennen, was ich nicht sehe aber wichtig wäre um die Ursache zu finden.
 

Attachments

  • proxmox-migration-machine-log.txt
    52 KB · Views: 3

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!