Live Migration auf 7.2.4 CPU 100% FREEZE

fettfoen · May 23, 2022

Hier ist ein Bug Report, nicht genau unser Problem, aber geht wohl alles in eine ähnliche Richtung. Du könntest eventuell auch dort posten, dass du davon betroffen bist.

https://bugzilla.proxmox.com/show_bug.cgi?id=4073

Sourcenux · May 24, 2022

Wir haben das Problem auch. Bei uns scheint ein Upgrade auf pve-qemu-kvm: 6.2.0-8 (aus pve-test, da sind aktuell keine anderen Upgrades drin im vgl. zum Nosub-Repo) geholfen zu haben.

fettfoen · May 24, 2022

Sourcenux said:
Wir haben das Problem auch. Bei uns scheint ein Upgrade auf pve-qemu-kvm: 6.2.0-8 (aus pve-test, da sind aktuell keine anderen Upgrades drin im vgl. zum Nosub-Repo) geholfen zu haben.

Bindest du einfach das Test Repo ein und installiert dann die neuere "pve-qemu-kvm" über die bereits installierte?

Sourcenux · May 24, 2022

Ja, Repo rein und apt update && apt dist-upgrade.

Edit: siehe nächster Post.

Neobin · May 24, 2022

fettfoen said:
Bindest du einfach das Test Repo ein und installiert dann die neuere "pve-qemu-kvm" über die bereits installierte?

https://forum.proxmox.com/threads/p...king-up-large-disks.109272/page-3#post-472210

Sourcenux said:
Ja, Repo rein und apt update && apt upgrade.

https://forum.proxmox.com/threads/proxmox-ve-7-1-released.99847/page-8#post-463941

fettfoen · May 25, 2022

Laut dem letzten Commit des "pve-qemu-kvm" (https://git.proxmox.com/?p=pve-qemu.git;a=summary) gab es eine CEPH bezogene Änderung. Ja ich habe ein CEPH rbd auf dem das meiste an VMs liegt. Allerdings sind auch die Maschinen betroffen, welche auf einem NFS Storage liegen. Von daher bin ich mir unsicher ob dieser Patch mein Problem lösen kann.

pveadmin · May 25, 2022

Moin,

wenn wir unsere Xeon(R) Gold 6126 Hosts mit dem Kernel pve-kernel-5.15.30-2-pve: 5.15.30-3 booten, dann funktioniert die Migration wieder in alle Richtungen. Wir haben ein Ticket bei proxmox und das dort kommuniziert, es könnte also eine Lösung geben.

Interessant ist die Info oben, dass pve-qemu-kvm auf testing _auch_ hilft... Irgendwie seltsam das alles.

fabian · May 25, 2022

pveadmin said:
Moin,

wenn wir unsere Xeon(R) Gold 6126 Hosts mit dem Kernel pve-kernel-5.15.30-2-pve: 5.15.30-3 booten, dann funktioniert die Migration wieder in alle Richtungen. Wir haben ein Ticket bei proxmox und das dort kommuniziert, es könnte also eine Lösung geben.

Interessant ist die Info oben, dass pve-qemu-kvm auf testing _auch_ hilft... Irgendwie seltsam das alles.

spricht dafuer dass es vielleicht einfach zwei probleme mit aehnlichen symptomen sind. das pve-qemu-kvm paket behebt auf jeden fall einen bug in der interaktion von qemu und librbd, das in solchen setups zu reduzierter performance (bis hin zu blockierenden VMs) fuehren kann.

RPTU · May 25, 2022

Hallo,

ich hab das Problem nun nach dem Update auf 7.2 auch nachvollziehen können. Migration von qemu-6.2 VMs auf "ältere" CPUs führen zu sehr langsamen bis komplett hängenden VMs bei 100% CPU der VM. Ich hatte noch 4 Hosts auf dem 5.13er Kernel bei denen der reboot noch offen war -> gleiches Problem. Auf einer Maschine mit alter CPU und 6.2er qemu habe ich ein downgrade auf pve-qemu-kvm 6.1.1-2 gemacht und danach eine noch laufende VM im qemu 6.1.1er Format von einem Host mit Skylake auf den alten Host mit Sandybridge migriert -> geht. Sobald pve-qemu-kvm auf 6.2 springt, ist das Problem da. Datastores sind rein NFS. Wenn ich einen Memtest (x86) boote auf der VM und dann migriere, klemmt es nicht. Testweise habe ich nun noch auf einem anderen Cluster das Problem nachgestellt. Gleicher PVE-Stand (7.2-4 Stand no-subscription 30.5. 12:30) und dort eine Maschine von Alt (Nehalem) nach Neu (Sandybridge) und wieder zurück migriert. Keine Probleme. Bei Cascade Lake -> Sandybridge friert mir die VM direkt wieder mit 100% CPU ein.

Das Verhalten hört sich exakt wie hier an:
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=831761

Nur das die CPU kein tsc_scale besitzt. Sowohl unter qemu 6.1 und qemu 6.2 wird in der VM der gleiche Set an CPU-Flags angezeigt. Nächster Test war dann: VM auf PVE 7.2-4 mit qemu 6.1.1 gestartet (Skylake) -> migriert nach PVE 7.2-4 mit qemu 6.2.8 (Sandybridge), VM läuft -> migriert nach PVE 7.2-4 qemu 6.2.8 Cascade Lake, VM läuft -> migriert nach PVE 7.2-4 qemu 6.2.8 Sandy Bridge (gleicher Host wie Schritt 2), VM ist tot.

Alktueller Stand: Kernel 5.13 funktioniert mit qemu 6.2.0-8 und Migration zwischen moderneren CPUs runter auf SandyBridge. Auf älteren Systemen (Sandybridge/Nehalem) funktioniert die Migration auch mit dem 5.15er Kernel.

Gruß,

Heiko.

RPTU · Jun 2, 2022

Hallo nochmal:

https://lore.kernel.org/lkml/CAHk-=wjWKEQUG2Z5a=2FGUfO5+choQ0jhszqyDmHfZoTXVJYJQ@mail.gmail.com/T/

ist der vorgefundene Fehler. Sollte mit 5.17 wieder verschwinden und tritt erst ab Skylake auf.

Gruß,

Heiko.

fettfoen · Jun 2, 2022

Danke Heiko!

Wirklich sehr hilfreich.

lg
ff

mbaake · Jun 3, 2022

Moin, ich habe hier ähnliche Probleme, seit dem letzten Update gibt es die gleichen Auswirkungen wie hier beschrieben und etwas extra. Der Cluster besteht aus insgesamt 8 Hosts, HA Group AMD 2x EPYC 7351p und 2x 7543, HA Group Intel 3x Xeon E52640 v4 1x E5-2637 v3, Storage kommt ausschließlich von einem externen CEPH Cluster. Die Crash Problematik scheint bis jetzt nur auf den AMD's aufzutreten, die VM CPU's sind auf EPYC beschränkt die Intel's auf SandyBridge und Migration hat damit vorher auch sauber funktioniert.

VM Migrieren, Linux VM's crashen entweder sofort, oder sind Stuck mit 100% CPU. Was mir mehr Sorgen bereitet, es sind auch VM's betroffen die überhaupt nicht migriert worden sind, die dann auf einmal auch Crashen. Bei einer Windows VM konnte ich zufällig sehen das sich die Uhrzeit auf +27h geändert hat, angehängter Screenshot ist von einer VM die überhaupt nicht angerührt wurde aber trotzdem gecrashed ist.

Hat jemand auch Probleme das VM's crashen die nicht migriert worden sind?

Viele Grüße

Matthias

chrigiboy · Jun 3, 2022

Hallo,
wir haben genau das gleiche wie Matthias. Wir haben ziemlich ähnliche CPU's nur halt AMD 3970x anstatt die Epic, aber nutzen die gleichen Intel. Bei uns crashen hauptsächlich alle Linux Server auf dem Zielserver, sobald die Migration abgeschlossen ist. Bei kleinen vServer ist das eher nicht der Fall als bei grossen aktiven Systemen. Natürlich hat nach jedem Crash die restlichen Linux Server häufig auch noch ein Datenverlust. Die Windows vServer haben es bei uns bis jetzt ziemlich gut überlegt.
Es kam sogar vor, dass auch der Proxmox Server selbst einfach während dem laufenden Betrieb gecrashed ist. Memtest, HW Test ist alles I.O. Diese Systeme liefen jahrelang normalerweise problemlos.
Auch ist uns aufgefallen, dass manchmal ein extrem hoher IO delay von 40.0 auf der Host Maschine selbst anliegt. Tritt einfach plötzlich auf, vermuten aber dass es etwas mit dem Netzwerktraffic zu tun hat in Kombination zur Arbeitsspeicherauslastung.
Da scheint mir ein echt krasser Bug zu sein. Zudem sind mir die Blockingstates auf der Konsole von Proxmox aufgefallen.

Wir nutzen

Linux 5.15.35-1-pve #1 SMP PVE 5.15.35-3

PS. Bei der i440fx Version > 5.0 funktioniert bei allen Windows Server der Netzwerkadapter nicht mehr. Der wird im Gerätemanager gefunden, Treiber können installiert werden, aber in der Netzwerkumgebung sieht man einfach keinen Adapter.

mbaake · Jun 7, 2022

@chrigiboy in einem anderen Thread haben einige den Kernel auf 5.13. ( https://forum.proxmox.com/threads/kernel-bug-cpu-soft-lockup.110059/post-475828 ) gedowngradet, ich kann das in meiner Situation schlecht testen wegen dem Fallout. Hast du Kapazitäten um den Kernel zu Downgraden und Live Migration zu testen?

Gruß

Matthias

fettfoen · Jun 7, 2022

Bei mir hat eine Migration wieder mit dem Kernel 5.13.19-6-pve funktioniert.

Siehe Nachrichten @tukl

lg
ff

mbaake · Jun 7, 2022

Habe mal Logs von der VM aus dem Screenshot angehängt, aus irgendeinem Grund hat die sich wieder beruhigt. Hatte auch keine hohe Last erzeugt (14 cores 7% Last = 1 vcpu dicht), laut Proxmox Webinterface lief auch der Guest Agent nicht mehr. Der SSH Login funktionierte zur Verwunderung und nach einem systemctl status qemu-guest-agent wurde auf einmal wieder gepollt, siehe guest-agent.txt

Dadsun · Jul 12, 2022

Interessant so ähnlich hier:
Von: "2x 16-Core Intel Xeon Gold 6130 bits"
Nach:
"2x 6-Core Intel Xeon E5-2643 v3 bits"
2x 14-Core Intel Xeon E5-2660 v4 bits"
Freeze.
Umgekehrt geht es einwandfrei.

pve-manager/7.2-3/c743d6c1 mit Kernel 5.15.35-1-pve

Nachtrag:
Intel Silver Serie gleiches Problem wie bei Gold

fettfoen · Jul 12, 2022

Es ist mehr oder weniger offiziell bekannt, dass das Problem beim Kernel liegt.

https://bugzilla.proxmox.com/show_bug.cgi?id=4073

crs369 · Sep 15, 2022

After the Update to pve-kernel-5.19 (see Link) on all systems off my cluster the live migration works without that problem.

The live migation were possible without that problem, but in some cases the VM hangs.

I write above that this works only after updating all machines. At the beginning i only update one machine to test and migration from one system with a old to new kernel and back. I'm not sure but i had seens then the orginal problem.

Makes sense when the prblem is in the kernel and is fixed now.

Live Migration auf 7.2.4 CPU 100% FREEZE

Well-Known Member

Member

Well-Known Member

Member

Distinguished Member

Well-Known Member

New Member

Proxmox Staff Member

Member

Member

Well-Known Member

Member

Attachments

Well-Known Member

Attachments

Member

Well-Known Member

Member

Attachments

Renowned Member

Well-Known Member

Member

We value your privacy