Hallo,
ich bin gerade dabei ein HCI-Cluster mit 3 Nodes einzurichten. Nachdem das Cluster zuerst einige Tage fehlerfrei funktioniert hatte, habe ich aktuell Probleme bei der HA/Live-Migration.
Die Migration startet zuerst ganz normal, nach kurzer Zeit ist die Memory-Migration aber extrem langsam. Lasse ich die Migration weiter laufen fällt auf, dass mehr Memory migriert wird, als der VM zugeordnet wurde.
Das Netzwerk ist mit 10G ausreichend schnell, die Hosts haben aktuelle Prozessoren (AMD EPYC 7443P) und RAM(512 GB). Als Ceph-Storage kommen SSDs zum Einsatz.
Die Nodes laufen seit 28 Tagen, die VMs wurden vor 8 Tagen neu gestartet.
Ein Neustart der VM hilft nicht, fahre ich die VM jedoch herunter (und lasse diese vom HA wieder starten oder starte Sie manuell wieder) funktioniert die Migration wie erwartet. Das Migration-Netzwerk habe ich testweise schon auf andere NICs geändert und auch schon auf insecure gesetzt.
Was auffällt ist, dass nach dem Shutdown der KVM-Prozess etwas andere Parameter hat:
Vorher:
Nachher:
Aktuell habe ich noch Version 7.4-16 installiert.
Im folgenden das Log der Migration:
Ziel ist es die HA/Live-Migration wieder zum funktionieren zu bekommen ohne alle VMs manuell herunterfahren zu müssen.
Bin über jede Hilfe dankbar.
Tux
ich bin gerade dabei ein HCI-Cluster mit 3 Nodes einzurichten. Nachdem das Cluster zuerst einige Tage fehlerfrei funktioniert hatte, habe ich aktuell Probleme bei der HA/Live-Migration.
Die Migration startet zuerst ganz normal, nach kurzer Zeit ist die Memory-Migration aber extrem langsam. Lasse ich die Migration weiter laufen fällt auf, dass mehr Memory migriert wird, als der VM zugeordnet wurde.
Das Netzwerk ist mit 10G ausreichend schnell, die Hosts haben aktuelle Prozessoren (AMD EPYC 7443P) und RAM(512 GB). Als Ceph-Storage kommen SSDs zum Einsatz.
Die Nodes laufen seit 28 Tagen, die VMs wurden vor 8 Tagen neu gestartet.
Ein Neustart der VM hilft nicht, fahre ich die VM jedoch herunter (und lasse diese vom HA wieder starten oder starte Sie manuell wieder) funktioniert die Migration wie erwartet. Das Migration-Netzwerk habe ich testweise schon auf andere NICs geändert und auch schon auf insecure gesetzt.
Was auffällt ist, dass nach dem Shutdown der KVM-Prozess etwas andere Parameter hat:
Vorher:
-machine type=pc-i440fx-7.2+pve0 -incoming unix:/run/qemu-server/135.migrate -Sgeht:
Nachher:
-machine type=pc+pve0
Aktuell habe ich noch Version 7.4-16 installiert.
Im folgenden das Log der Migration:
Code:
2023-07-24 15:53:21 use dedicated network address for sending migration traffic (10.10.10.122)
2023-07-24 15:53:21 starting migration of VM 161 to node 'pve-03' (10.10.10.122)
2023-07-24 15:53:21 starting VM 161 on remote node 'pve-03'
2023-07-24 15:53:22 start remote tunnel
2023-07-24 15:53:23 ssh tunnel ver 1
2023-07-24 15:53:23 starting online/live migration on unix:/run/qemu-server/161.migrate
2023-07-24 15:53:23 set migration capabilities
2023-07-24 15:53:23 migration downtime limit: 0 ms
2023-07-24 15:53:23 migration cachesize: 256.0 MiB
2023-07-24 15:53:23 set migration parameters
2023-07-24 15:53:23 start migrate command to unix:/run/qemu-server/161.migrate
2023-07-24 15:53:24 migration active, transferred 824.4 MiB of 2.0 GiB VM-state, 1.1 GiB/s
2023-07-24 15:53:26 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:26 migration active, transferred 1.6 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:26 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:27 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:27 migration active, transferred 1.6 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:27 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:28 migration active, transferred 1.6 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:28 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:29 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:29 migration active, transferred 1.6 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:29 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:30 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:30 migration active, transferred 1.6 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:30 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:31 migration active, transferred 1.7 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:31 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:32 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:32 migration active, transferred 1.7 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:53:32 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:53:33 auto-increased downtime to continue migration: 0 ms
[...]
2023-07-24 15:57:19 migration active, transferred 2.2 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:57:20 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:20 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:20 migration active, transferred 2.2 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:57:21 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:21 migration active, transferred 2.2 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:57:22 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:22 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:23 migration active, transferred 2.2 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:57:23 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:23 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:24 migration active, transferred 2.2 GiB of 2.0 GiB VM-state, 0.0 B/s
2023-07-24 15:57:24 auto-increased downtime to continue migration: 0 ms
2023-07-24 15:57:24 ERROR: online migrate failure - interrupted by signal
2023-07-24 15:57:24 aborting phase 2 - cleanup resources
2023-07-24 15:57:24 migrate_cancel
2023-07-24 15:57:25 ERROR: writing to tunnel failed: broken pipe
2023-07-24 15:57:25 ERROR: migration finished with problems (duration 00:04:04)
TASK ERROR: migration problems
Ziel ist es die HA/Live-Migration wieder zum funktionieren zu bekommen ohne alle VMs manuell herunterfahren zu müssen.
Bin über jede Hilfe dankbar.
Tux