Live Migration auf 7.2.4 CPU 100% FREEZE

Oct 2, 2019
22
2
23
Ich habe gestern mein Proxmox VE auf Version 7.2.4 geupdated. Ich habe seit Version 7.2.4 ein ziemlich unschönes Problem. Mein Cluster besteht aus 7 Nodes. Node 4-7 sind computing Nodes für Container und VMs, der ist CEPH bzw. OSD Nodes. Nun konnte ich mehr oder weniger durch trial-error herausfinden, dass ist seit dem Upgrade auf 7.2.4 ein Problem mit der live Migration habe.

Um es kurz zu machen:

Wenn ich von Node 6/7 eine VM auf Node 4/5 migriere, friert die VM auf dem Zielhost ein und alle CPU Kerne gehen auf 100%. Mir bleibt nur übrig die VM zu „STOPPEN“ (STOP) und anschließend wieder neu zu starten. Dieses Problem tritt nur bei einer live Migration auf und auch nur dann, wenn ich auf die Nodes 4-5 migriere. Ja die Hardware ist unterschiedlich:

Node 4/5:

Dell R720 - Intel(R) Xeon(R) CPU E5-2650L v3 @ 1.80GHz (2 Sockets)
Dell R720 - Intel(R) Xeon(R) CPU E5-2650L v3 @ 1.80GHz (2 Sockets)

Node 6/7:

Dell R740 - Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz (2 Sockets)
Dell R740 - Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz (2 Sockets)


Die Server laufen nun auf 5.15.35-1-pve #1 SMP PVE 5.15.35-3 (pve-manager/7.2-4/ca9d43cc)

Ich möchte nochmal anmerken, dass Problem habe ich nur wenn ich von Node 6 oder 7 auf Node 4 oder 5 migriere. Das Migrieren von Node 4 oder 5 funktioniert nach wie vor einwandfrei.

Ich bin leider Ratlos, da mir weder das pveam.log noch das syslog oder dmesg irgendeine Info liefert. Ich hoffe mir dabei jemand helfen. Haben sich seit dem Update auf 5.15.35-3 im Kernel irgendwelche default Einstellungen geändert? Auf Version 7.2.3 (5.15.30-2-pve ) hatte ich das Problem noch nicht.

Vielen Dank für die Hilfe.

LG

ff
 
Welcher CPU-Typ ist für die Gäste gewählt und welche QEMU-Version?
 
Welcher CPU-Typ ist für die Gäste gewählt und welche QEMU-Version?
dpkg -l | grep qemu

ii libproxmox-backup-qemu0 1.3.1-1 amd64 Proxmox Backup Server client library for QEMU
ii pve-qemu-kvm 6.2.0-7 amd64 Full virtualization on x86 hardware
ii qemu-server 7.2-3 amd64 Qemu Server Tools

Alle Server haben als CPU Type, "Default (kvm64).

LG
ff

EDIT: Zum testen habe ich den CPU Type auf "host" umgestellt. Gleiches Verhalten wie oben beschriebe.
 
Last edited:
Nun, zunächst ist es ja so das für unterschiedliche CPU-Typen niemals eine "Zusicherung" ausgesprochen wurde das eine Live-Migration möglich ist. Innerhalb des Herstellers und mit KVM64 ist die Wahrscheinlichkeit natürlich gegeben das es funktioniert. Diese steigt noch wenn du von älterer auf neuere Generation migrierst. Ja, hilft dir alles nichts, ist schon klar. Auch wenn es bisher immer funktioniert hat, muss es das in einer neueren PVE-Version nicht automatisch immer noch.

Von welcher PVE-Version bist du denn gekommen? 7.1-x?

Zwischen den beiden CPUs sind ja mal eben 4 Jahre Entwicklung. Kann klappen, muss aber nicht.

Welcher Maschine-Typ ist denn konfiguriert? Hast du die VMs nach dem Update einmal per STOP-START auf die neue Version gebracht oder von einem Node auf einen anderen migriert während der Maschine-Typ auf "Default" steht?
1653031676188.png
 
Nun, zunächst ist es ja so das für unterschiedliche CPU-Typen niemals eine "Zusicherung" ausgesprochen wurde das eine Live-Migration möglich ist. Innerhalb des Herstellers und mit KVM64 ist die Wahrscheinlichkeit natürlich gegeben das es funktioniert. Diese steigt noch wenn du von älterer auf neuere Generation migrierst. Ja, hilft dir alles nichts, ist schon klar. Auch wenn es bisher immer funktioniert hat, muss es das in einer neueren PVE-Version nicht automatisch immer noch.

Von welcher PVE-Version bist du denn gekommen? 7.1-x?
Vor dem Update sind alle Server auf der Version 7.2.3 gelaufen. Deswegen konnte ich mir nicht vorstellen, dass es diesbezüglich ein Problem geben könnte.
Zwischen den beiden CPUs sind ja mal eben 4 Jahre Entwicklung. Kann klappen, muss aber nicht.

Welcher Maschine-Typ ist denn konfiguriert? Hast du die VMs nach dem Update einmal per STOP-START auf die neue Version gebracht oder von einem Node auf einen anderen migriert während der Maschine-Typ auf "Default" steht?
View attachment 37133
Auch hier steht der Typ bei allen VMs auf Default (i440fx), Version Latest. Ich habe es schon auf q35 umgestellt oder von Latest auf eine Version darunter. Leider ebenfalls ohne Erfolg.
 
Welcher Kernel war denn unter 7.2-3 in Benutzung und welcher wird jetzt unter 7.2-4 verwendet?
Ggf. mal den Kernel zurückrollen?
 
Welcher Kernel war denn unter 7.2-3 in Benutzung und welcher wird jetzt unter 7.2-4 verwendet?
Ggf. mal den Kernel zurückrollen?
Auf Version 7.2.3 (5.15.30-2-pve ). Ja das wäre eine Möglichkeit. Allerdings auch nur ein Workaround. Bevor ich das teste, versuche ich das Problem anderweitig zu lösen. Das Update ist ja noch relativ neu, vielleicht habe nicht nur ich das Problem.
 
Ist nur ein Schuss ins blaue, aber ich hatte gestern Tickets mit dem Support am laufen wegen diesem "fehlerhaften" Pakets.
Eventuell hast du einen "Leernode", wo du das probieren könntest? Die korrigierte Version gibts in pve-test.
 
  • Like
Reactions: itNGO
Ist nur ein Schuss ins blaue, aber ich hatte gestern Tickets mit dem Support am laufen wegen diesem "fehlerhaften" Pakets.
Eventuell hast du einen "Leernode", wo du das probieren könntest? Die korrigierte Version gibts in pve-test.
Zum experimentieren aktuell nicht. Das Problem ist auch, Node 4 und 5 sind Mon, Mgr . . . für CEPH, deswegen würde ich nur ungern an diesen Knoten testen.

Was ich testen konnte:

Ich habe meinen Node 4 unter folgenden Kernel gestartet:

5.15.35-1-pve (current)
5.15.30-2-pve
5.13.19-6-pve

Gleiches Ergebnis. Somit würde ich den Kernel ausschließen? Und eventuell Richtung Qemu gehen? Falls es von Interesse ist, ich verwende das Enterprise Repository.

LG
ff
 
Ich tippe auch mal auf die pve-qemu-kvm
Da liegt ja grad doch einiges im "Argen"... wer testet das eigentlich noch mal? ;)
 
Das derzeitige "Workaround" vor der Migration, die VM herunterfahren, verschieben und wieder starten. Das ist jedoch nur bedingt praktikable. Ich hoffe, dass das jemand von Proxmox mitliest.

Vielen Dank
ff
 
Das derzeitige "Workaround" vor der Migration, die VM herunterfahren, verschieben und wieder starten. Das ist jedoch nur bedingt praktikable. Ich hoffe, dass das jemand von Proxmox mitliest.

Vielen Dank
ff
Mach ein Ticket auf, die sind sehr fix beim Support.
 
Last edited:
  • Like
Reactions: fettfoen
Hier ist ein weiterer Thread dazu: https://forum.proxmox.com/threads/p...n-linux-freeze-on-windows.109645/#post-471557

Dieser schreibt, dass pve-kernel-5.15.30-2-pve funktionieren würde.
Den habe ich bereits getestet, allerdings nur auf dem Host der auch Probleme macht. Ich habe eben noch bemerkt, dass ich das Problem nicht zwischen Node4 und 5 habe.

Live Migration:

Node7/6 --> Node4/5 --> FREEZE, ausnahmslos

Node4/5 --> Node6/7 --> WORKS

Node4-->Node5-->WORKS

Node5-->Node4-->WORKS

Zwischen Node6 und 7 gab es bisher noch nie Probleme.
 
Moin,

wir haben dasselbe Problem, seit wann genau ist schwierig festzustellen, es hat aber sicher noch am 6. Mai funktioniert...

Dasselbe Problem heißt:
  • Migration von Intel(R) Xeon(R) Gold 6126 auf Intel(R) Xeon(R) CPU E5-2690 v3 lässt die VM reproduzierbar einfrieren.
  • 6xxx -> 6xxx und 26xx -> 6xxx geht problemlos
Im Labor klappt 2640 -> 5645 -> 2640 ebenfalls problemlos. Ist also ein 6xxx vs. 2xxx Problem...

VM CPU Type auf SandyBridge setzen hilft nicht. Wir lassen die VMs eh als kvm64 laufen, da sollte die CPU abstrahiert sein.
 
  • Like
Reactions: fettfoen

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!