[SOLVED] shutdown_policy=migrate wartet nicht auf Migrationsnetz

manal

New Member
Apr 8, 2025
5
3
3
Ich habe einen PVE-Cluster mit 5 Knoten mit folgender Netzconfig:

Code:
auto lo
iface lo inet loopback

auto enp1s0f0
iface enp1s0f0 inet manual
#Ceph Bond Member

auto enp1s0f1
iface enp1s0f1 inet manual
#Ceph Bond Member

iface enp33s0f0 inet manual
#Guest Net Bridge Member

auto enp33s0f1
iface enp33s0f1 inet manual
#Cluster Net Bridge Member

auto bond0
iface bond0 inet static
        address 192.168.132.x/24
        bond-slaves enp1s0f0 enp1s0f1
        bond-miimon 100
        bond-mode 802.3ad
#Ceph Net

auto vmbr0
iface vmbr0 inet manual
        bridge-ports enp33s0f0
        bridge-stp off
        bridge-fd 0
        bridge-vlan-aware yes
        bridge-vids 2-4094
#Guest Net

auto vmbr1
iface vmbr1 inet static
        address 192.168.131.x/24
        bridge-ports enp33s0f1
        bridge-stp off
        bridge-fd 0
#Cluster Net

auto vmbr0.607
iface vmbr0.607 inet static
        address 192.168.133.x/24
        gateway 192.168.133.254
#Frontend/Backup Net

Und folgenden relevanten Zeilen in /etc/pve/datacenter.conf:
Code:
ha: shutdown_policy=migrate
migration: network=192.168.133.0/24,type=secure

Wenn ich einen Knoten reboote werden HA-VMs korrekt auf andere Knoten migriert. Aber sobald das Cluster-Netz des neugestarteten Knotens wieder erreichbar ist fängt PVE direkt mit der Rückmigration von VMs an, ohne zu warten bis das Migrations-Netz von vmbr0.607 verfügbar ist, sodass die ersten paar Migrationsjobs mit folgendem Fehler fehlschlagen:

Code:
task started by HA resource agent
2025-07-21 13:40:17 # /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=node-1' -o 'UserKnownHostsFile=/etc/pve/nodes/node-1/ssh_known_hosts' -o 'GlobalKnownHostsFile=none' root@192.168.133.x /bin/true
2025-07-21 13:40:17 ssh: connect to host 192.168.133.x port 22: No route to host
2025-07-21 13:40:17 ERROR: migration aborted (duration 00:00:15): Can't connect to destination address using public key
TASK ERROR: migration aborted

Gibt es einen einfachen Weg den HA-Manager auf das Migrationsnetz warten zu lassen?
 
Hi,
er migriert normalerweise immer wenn das Interface oben ist. Was verhindert denn bei dir die Verbindung, obwohl das VLAN Interface online ist?
Hast du eventuell klassisches Spanning Tree auf deinem Switch im Einsatz?
Ich nutze in vielen Umgebungen VLAN Interfaces für Migration und habe diesen Fehler noch nie gesehen.
 
  • Like
Reactions: manal
Spanning Tree war tatsächlich das Problem, danke für den Tipp. Clusternetz Access-Port mit spanning-tree portfast vs. Migrationsnetz Trunk ohne explizite Spanning-Tree-Config. Mit spanning-tree portfast trunk auf dem Trunk geht es dann.

Finde es trotzdem spannend, dass der HA-Manager nicht darauf wartet bis das Migrationsnetz Konnektivität hat, wenn es separat vom Clusternetz ist.
 
Wenn das Interface Up ist, ist für ihn alles OK. Da wird nicht noch ein Ping getestet. Dein Netzwerk musst du schon selbst im Griff haben. Bei RSTP passiert eigentlich auch nichts, nur wer noch das ganz alte STP nutzt mit bis zu 30 Sekunden Blocking hat da echte Probleme.