Hallo zusammen,
wir betreiben einen Proxmox-Cluster (8.4.10) mit folgender Konfiguration:
CEPH:
ceph osd pool get cephpool min_size
size: 2
min_size: 1
cluster:
id: 637edacf-be40-4a4d-a7d3-22bdff69de56
health: HEALTH_OK
services:
mon: 6 daemons, quorum ESC-PVE-01,ESC-PVE-02,ESC-PVE-03,RUE-PVE-01,RUE-PVE-02,RUE-PVE-03 (age 11h)
mgr: ESC-PVE-01(active, since 3d), standbys: RUE-PVE-01
osd: 120 osds: 120 up (since 11h), 120 in (since 23h); 1 remapped pgs
data:
pools: 2 pools, 8193 pgs
objects: 10.22M objects, 34 TiB
usage: 67 TiB used, 353 TiB / 419 TiB avail
pgs: 11/20436499 objects misplaced (0.000%)
8191 active+clean
1 active+clean+scrubbing+deep
1 active+clean+remapped
io:
client: 197 MiB/s rd, 138 MiB/s wr, 5.20k op/s rd, 4.55k op/s wr
Crushmap, Corosync, Pvecmstatus im Anhang
Problem:
Wenn wir einen kompletten Ausfall eines Rechenzentrums simulieren (z. B. Standort A offline), funktioniert das HA-Failover nicht wie erwartet.
Die VMs aus dem ausgefallenen Standort werden nicht automatisch auf den verbleibenden Standort übernommen – stattdessen bleiben sie im HA-Status „stopped“ oder „frozen“.
Bisherige Erkenntnisse:
Danke für jede Hilfe oder Hinweise, wie wir das Setup optimieren können.
Viele Grüße
wir betreiben einen Proxmox-Cluster (8.4.10) mit folgender Konfiguration:
- 2 Rechenzentren (Standort A und Standort B)
- Jeweils 3 Nodes, verbunden über Darkfiber
- 3. Standort mit QDevice (per Side-to-Side VPN angebunden)
- Ceph als Shared Storage (repliziert zwischen beiden Rechenzentren)
- HA ist für relevante VMs und Services aktiviert
CEPH:
ceph osd pool get cephpool min_size
size: 2
min_size: 1
cluster:
id: 637edacf-be40-4a4d-a7d3-22bdff69de56
health: HEALTH_OK
services:
mon: 6 daemons, quorum ESC-PVE-01,ESC-PVE-02,ESC-PVE-03,RUE-PVE-01,RUE-PVE-02,RUE-PVE-03 (age 11h)
mgr: ESC-PVE-01(active, since 3d), standbys: RUE-PVE-01
osd: 120 osds: 120 up (since 11h), 120 in (since 23h); 1 remapped pgs
data:
pools: 2 pools, 8193 pgs
objects: 10.22M objects, 34 TiB
usage: 67 TiB used, 353 TiB / 419 TiB avail
pgs: 11/20436499 objects misplaced (0.000%)
8191 active+clean
1 active+clean+scrubbing+deep
1 active+clean+remapped
io:
client: 197 MiB/s rd, 138 MiB/s wr, 5.20k op/s rd, 4.55k op/s wr
Crushmap, Corosync, Pvecmstatus im Anhang
Problem:
Wenn wir einen kompletten Ausfall eines Rechenzentrums simulieren (z. B. Standort A offline), funktioniert das HA-Failover nicht wie erwartet.
Die VMs aus dem ausgefallenen Standort werden nicht automatisch auf den verbleibenden Standort übernommen – stattdessen bleiben sie im HA-Status „stopped“ oder „frozen“.
Bisherige Erkenntnisse:
- Netzwerkverbindung zwischen den Standorten ist ansonsten stabil (Darkfiber, geringe Latenz).
- QDevice ist erreichbar und wurde in den Cluster integriert.
- Es ist egal ob ein Server oder 3 Server am Standort "ausfallen", die ganzen Maschinen Freezen
- Alle Maschinen waren in HA in einer eigenen Gruppe, ich musste Sie aber dann wieder entfernen, nach dem Test ging einfach nichts richtig, Maschinen waren im Freeze, erst nach dem entfernen konnte ich Sie Stoppen und wieder Booten dann war es wieder OK.
Danke für jede Hilfe oder Hinweise, wie wir das Setup optimieren können.
Viele Grüße