Ich habe gestern mein Proxmox VE auf Version 7.2.4 geupdated. Ich habe seit Version 7.2.4 ein ziemlich unschönes Problem. Mein Cluster besteht aus 7 Nodes. Node 4-7 sind computing Nodes für Container und VMs, der ist CEPH bzw. OSD Nodes. Nun konnte ich mehr oder weniger durch trial-error herausfinden, dass ist seit dem Upgrade auf 7.2.4 ein Problem mit der live Migration habe.
Um es kurz zu machen:
Wenn ich von Node 6/7 eine VM auf Node 4/5 migriere, friert die VM auf dem Zielhost ein und alle CPU Kerne gehen auf 100%. Mir bleibt nur übrig die VM zu „STOPPEN“ (STOP) und anschließend wieder neu zu starten. Dieses Problem tritt nur bei einer live Migration auf und auch nur dann, wenn ich auf die Nodes 4-5 migriere. Ja die Hardware ist unterschiedlich:
Node 4/5:
Dell R720 - Intel(R) Xeon(R) CPU E5-2650L v3 @ 1.80GHz (2 Sockets)
Dell R720 - Intel(R) Xeon(R) CPU E5-2650L v3 @ 1.80GHz (2 Sockets)
Node 6/7:
Dell R740 - Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz (2 Sockets)
Dell R740 - Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz (2 Sockets)
Die Server laufen nun auf 5.15.35-1-pve #1 SMP PVE 5.15.35-3 (pve-manager/7.2-4/ca9d43cc)
Ich möchte nochmal anmerken, dass Problem habe ich nur wenn ich von Node 6 oder 7 auf Node 4 oder 5 migriere. Das Migrieren von Node 4 oder 5 funktioniert nach wie vor einwandfrei.
Ich bin leider Ratlos, da mir weder das pveam.log noch das syslog oder dmesg irgendeine Info liefert. Ich hoffe mir dabei jemand helfen. Haben sich seit dem Update auf 5.15.35-3 im Kernel irgendwelche default Einstellungen geändert? Auf Version 7.2.3 (5.15.30-2-pve ) hatte ich das Problem noch nicht.
Vielen Dank für die Hilfe.
LG
ff
Um es kurz zu machen:
Wenn ich von Node 6/7 eine VM auf Node 4/5 migriere, friert die VM auf dem Zielhost ein und alle CPU Kerne gehen auf 100%. Mir bleibt nur übrig die VM zu „STOPPEN“ (STOP) und anschließend wieder neu zu starten. Dieses Problem tritt nur bei einer live Migration auf und auch nur dann, wenn ich auf die Nodes 4-5 migriere. Ja die Hardware ist unterschiedlich:
Node 4/5:
Dell R720 - Intel(R) Xeon(R) CPU E5-2650L v3 @ 1.80GHz (2 Sockets)
Dell R720 - Intel(R) Xeon(R) CPU E5-2650L v3 @ 1.80GHz (2 Sockets)
Node 6/7:
Dell R740 - Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz (2 Sockets)
Dell R740 - Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz (2 Sockets)
Die Server laufen nun auf 5.15.35-1-pve #1 SMP PVE 5.15.35-3 (pve-manager/7.2-4/ca9d43cc)
Ich möchte nochmal anmerken, dass Problem habe ich nur wenn ich von Node 6 oder 7 auf Node 4 oder 5 migriere. Das Migrieren von Node 4 oder 5 funktioniert nach wie vor einwandfrei.
Ich bin leider Ratlos, da mir weder das pveam.log noch das syslog oder dmesg irgendeine Info liefert. Ich hoffe mir dabei jemand helfen. Haben sich seit dem Update auf 5.15.35-3 im Kernel irgendwelche default Einstellungen geändert? Auf Version 7.2.3 (5.15.30-2-pve ) hatte ich das Problem noch nicht.
Vielen Dank für die Hilfe.
LG
ff