[SOLVED] ZFS (replication) Migration VM startet neu

Skyfay · Nov 24, 2023

Also ich habe neue Infos.
Das Problem tritt nur auf nach einer Migration von Node 1 auf Node 2.
Wenn ich dann die Server neu starten und von Node 2 auf Node 1 migriere funktioniert das problemlos.
Allerdings bleibt die Erkenntnis, wenn eine Migration durch ist funktioniert es auf dieser VM in beide Richtungen problemlos.
Und es ist auch egal ob die VM alle 30 Minuten Repliziert oder jede Minute mit beiden tritt das Verhalten genauso auf.

Falk R. · Nov 24, 2023

Habt ihr nur 1x 10G? Für Corosync solltest du ein dediziertes Netzwerk haben und ich mache das Migrationsnetzwerk auch immer dediziert.

Skyfay · Nov 24, 2023

Falk R. said:
Habt ihr nur 1x 10G? Für Corosync solltest du ein dediziertes Netzwerk haben und ich mache das Migrationsnetzwerk auch immer dediziert.

Ja nur 1x 10G. Mehr lohnt sich hier nicht es ist halt ein Heim Netzwerk. Ich könnte zwar ein weiteres dediziertes 2.5G Netzwerk aufbauen aber das nur wenn es unbedingt notwendig wäre.

Falk R. · Nov 24, 2023

Wenigstens ein zweites GBit Netzwerk. Wenn du migrierst, ist die Leitung dicht und Corosync mag das gar nicht.

Skyfay · Nov 24, 2023

Was mir gerade auch noch aufgefallen ist, dass die VM's manchmal auf Node 1 einfach Freezen. Also die Dienste die auf der VM laufen sind nicht mehr erreichbar und ich kann zwar auf dem Node die VM Konsole öffnen aber da geht auch nix mehr ist wie eingefrohren.
Also scheinen irgendwie alle Probleme vom Node 1 auszugehen.

Falk R. said:
Wenigstens ein zweites GBit Netzwerk. Wenn du migrierst, ist die Leitung dicht und Corosync mag das gar nicht.

Was macht denn Corosync genau? Könnte ich die Nodes auch direkt per Lan verbinden ohne Switch und was müsste ich konfigurieren?

Falk R. · Nov 24, 2023

Wenn du einen Cluster hast, wird über Corosync die Kommunikation zwischen den Nodes und der Sync von /etc/pve abgewickelt. So ein freeze kann vom corosync Dienst kommen, wenn er die anderen Nodes nicht erreicht.
Im Wiki wird das alles sehr gut erklärt.
Deshalb Corosync immer auf eine dedizierte Leitung legen. Wie viele Nodes hast du denn?

Skyfay · Nov 24, 2023

Falk R. said:
Deshalb Corosync immer auf eine dedizierte Leitung legen. Wie viele Nodes hast du denn?

Ich habe zwei Nodes weswegen ich auch Replication nutze. Ansonsten würde ich vermutlich mit Ceph arbeiten.

Falk R. · Nov 24, 2023

Dann steck mal ein Kabel und lege im Cluster den Ring 0 auf die Verbindung. Du kannst die 10G Nic ja als Ring1 mit drin lassen.

Skyfay · Nov 24, 2023

Falk R. said:
Dann steck mal ein Kabel und lege im Cluster den Ring 0 auf die Verbindung. Du kannst die 10G Nic ja als Ring1 mit drin lassen.

Hatte gerade die Server verbunden, bin essen gegangen und als ich wiedergekommen bin ist der erste Server wieder nicht erreichbar.
Ich kann ihn allerdings pingen das funktioniert. Aber ich komme nicht auf das Web Interface von Proxmox und wenn ich auf den zweiten Server gehe kann der keine Verbindung herstellen.

Falk R. · Nov 24, 2023

Klingt nach Corosync. Im log solltest du auch etwas dazu finden.
Wer macht denn bei dir das qdevice?
Hast du das Clusternetzwerk umkonfiguriert?

Skyfay · Nov 24, 2023

Falk R. said:
Wer macht denn bei dir das qdevice?

Was genau meinst du damit? ^^

Falk R. said:
Hast du das Clusternetzwerk umkonfiguriert?

Nein, soweit bin ich gar nicht gekommen. Habe die Server verbunden, war kurz weg und dann war der 1. nicht mehr erreichbar.

Skyfay · Nov 24, 2023

Also ich habe jetzt mal die Server direkt verbunden und dann eine Migration gemacht. Und es passiert immer noch das gleiche.
Ich habe auch mal einen Ping laufen lassen während der Migration.
Das 10.50.er ist das direkte und das 10.70.er läuft über den Switch:

Sieht eigentlich soweit gut aus würde ich sagen.

Falk R. · Nov 24, 2023

Also bei einem 2 Knoten Cluster brauchst du ein Entscheider um Split Brains zu vermeiden. Entweder mindestens 3 Knoten oder ein Quorum Device konfigurieren.
Hast du dir schon einmal das Wiki angeschaut?
https://pve.proxmox.com/wiki/Cluster_Manager

Skyfay · Nov 24, 2023

Noch nicht so extrem detailliert nein. Aber hat das Migration's und das "Netzwerk" Problem wirklich damit zu tun? Ich meine davor mit NFS und LVM lief ja auch alles und ich konnte da auch Migrationen durchführen ohne dass die Maschine neu gestartet hat.
Und es funktioniert ja auch aber halt irgendwie nicht 100% korrekt.

Falk R. · Nov 24, 2023

Du hast ja noch mehr I/O Delay durch die Nutzung von ZFS, das kann eventuell das quentchen mehr sein, was dann die Effekte auslöst.

Skyfay · Nov 24, 2023

Falk R. said:
Du hast ja noch mehr I/O Delay durch die Nutzung von ZFS, das kann eventuell das quentchen mehr sein, was dann die Effekte auslöst.

Also was denkst du denn ist die Ursache?

Skyfay · Nov 25, 2023

sb-jw said:
Das ist aber unvollständig (du hast nur das Migrationslog und einmal journalctl von der VM gepostet). Mich würde hier mal das syslog von allen involvierten Maschinen interessieren, was während der Migration mitgeschrieben wird. Da lassen sich vielleicht entsprechende Anomalien erkennen die einen Rückschluss geben könnten. Vielleicht auch nicht. Aber ohne kann man immer nur spekulieren und nichts handfestes nachvollziehen.

Also ich habe jetzt einmal alle Logs der Systeme zu dem Zeitpunkt einer fehlerhaften Migration.
Die Migration war laut Proxmox fertig um 11:12:26
Vielleicht könnt ihr ja etwas erkennen, was ich nicht sehe aber wichtig wäre um die Ursache zu finden.

sb-jw · Nov 25, 2023

Skyfay said:
Jetzt sind es zwei Mini Server mit Enterprise SSD.

Kannst du das mal detaillierter ausführen?

Skyfay · Nov 25, 2023

sb-jw said:
Kannst du das mal detaillierter ausführen?

Willst du die genauen Komponenten haben?

Falk R. said:
Entweder mindestens 3 Knoten oder ein Quorum Device konfigurieren.

Könnte ich ein Quorum Device auch in Docker auf meinem Synology Nas laufen lassen?

sb-jw · Nov 25, 2023

Skyfay said:
Willst du die genauen Komponenten haben?

Ja, darauf wollte ich hinaus ^^

Skyfay said:
Könnte ich ein Quorum Device auch in Docker auf meinem Synology Nas laufen lassen?

Theoretisch ja, schau mal in die Anleitung: https://pve.proxmox.com/wiki/Cluster_Manager#_corosync_external_vote_support

Probier es mal aus, ob du das installieren kannst. Aber Synology kann, je nach Gerät, auch KVM (meine DS1618+ kann es zumindest).

[SOLVED] ZFS (replication) Migration VM startet neu

Member

Distinguished Member

Member

Distinguished Member

Member

Distinguished Member

Member

Distinguished Member

Member

Distinguished Member

Member

Member

Distinguished Member

Member

Distinguished Member

Member

Member

Attachments

Famous Member

Member

Famous Member

We value your privacy