Hallo,
ich erlaube mir, hier zu posten, nachdem ein kritischer Vorfall in unserer Infrastruktur aufgetreten ist.
Unsere Umgebung:
Hintergrund des Vorfalls:
Am 2. Juli um 10:16:51 wurden auf allen 4 Knoten gleichzeitig sämtliche iSCSI-Pfade plötzlich getrennt. Dies führte sofort zu einem (nahezu) gleichzeitigen Reboot aller Nodes.
Analyse im Nachgang:
Meine Fragen:
Ich bin dankbar für jeden Erfahrungswert zu HA-Clustern mit iSCSI-Multipath-Storage unter Proxmox – insbesondere zu folgenden Themen:
Vielen Dank im Voraus für eure Unterstützung!
Mit freundlichen Grüßen
ich erlaube mir, hier zu posten, nachdem ein kritischer Vorfall in unserer Infrastruktur aufgetreten ist.
Unsere Umgebung:
- Proxmox-Cluster 7.x mit 4 Knoten (HPE DL380 Gen10)
- HPE MSA 2050 Storage direkt via iSCSI angebunden (kein Switch, jeder Knoten per bonding active-backup direkt an Controller A/B angeschlossen)
- Multipath konfiguriert
- HA aktiviert
Hintergrund des Vorfalls:
Am 2. Juli um 10:16:51 wurden auf allen 4 Knoten gleichzeitig sämtliche iSCSI-Pfade plötzlich getrennt. Dies führte sofort zu einem (nahezu) gleichzeitigen Reboot aller Nodes.
Analyse im Nachgang:
- Kein Reboot oder Failover wurde auf der MSA festgestellt.
- Es wurden keine physischen Verbindungen getrennt.
- Die Logs auf der MSA zeigen FreeDDE / NewDDE unmittelbar nach dem Verbindungsverlust – dies deutet auf ein iSCSI-Reset oder Session-Verlust hin.
- Der Software-Watchdog (softdog) hat die Nodes als "eingefroren" interpretiert und nach einem Timeout neu gestartet.
Meine Fragen:
- Ist es normal, dass Proxmox einen Node sofort als „offline“ betrachtet, nur weil temporär alle iSCSI-Pfade fehlen, obwohl das System weiterhin grundsätzlich reagiert?
- Der softdog-Watchdog scheint keinen Timeout wie PVE_HA_WATCHDOG_TIMEOUT zu berücksichtigen (zumindest nicht sichtbar im Environment von pve-ha-lrm) – ist das konfigurierbar?
- Wird bei dieser Architektur eher ein Software-Watchdog empfohlen oder sollte man auf einen Hardware-Watchdog (z. B. ipmi_watchdog) setzen?
- Gibt es eine Möglichkeit, einen sofortigen Reboot bei kurzzeitigen Storage-Ausfällen (z. B. iSCSI-Failover) zu verhindern?
Ich bin dankbar für jeden Erfahrungswert zu HA-Clustern mit iSCSI-Multipath-Storage unter Proxmox – insbesondere zu folgenden Themen:
- Timeout-Verhalten
- Watchdog-Empfehlungen
- Best Practices zur Vermeidung unnötiger Neustarts
Vielen Dank im Voraus für eure Unterstützung!
Mit freundlichen Grüßen