Hallo!
Ich habe das Problem, dass manchmal ein Proxmox-Host seinen NFS-Storage "verliert" und dann nicht wieder verbinden kann, bis ich den Host neu starte. Die VMs auf dem Host gehen dann in einen Stillstand, was logisch ist, wenn ihre HDD weg ist).
Setting:
3 Proxmox Hosts (Supermicro a2sdi-8c-hln4f mit je 128GB RAM und 10GbE-Netzwerk) in einer Cluster-Konfiguration. Außer der M.2-Bootdisk wird der gesamte Storage per NFS 4.1 von einem Synology 1821+ HA-Cluster bezogen (beide NAS-Systeme sind ebenfalls mit 10GbE angebunden und haben einen 10GbE Heartbeat). [Backups laufen ebenfalls per NFS 4.1 auf eine kleine Synology 418...]
Das lief auch einige Zeit ganz ordentlich und performant.
Nun hatte sich vor ein paar Tagen einer der Nodes komplett weg gehängt. Ein wenig Forschen ergab, dass der Node seinen NFS-Storage nicht mehr ansprechen konnte und seine (durchaus vorhandenen) Reconnect-Versuche scheiterten. Neustart des Nodes... Problem weg.
Nun habe ich alles Mögliche probiert, um das Ganze nachzustellen - und siehe da: Als ich den Synology HA-Cluster auf die passive Seite geschwenkt habe, verlor einer der Nodes (ein anderer als vorher - aber genau einer der drei) die Verbindung und alle VMs blieben stehen.
NFS-Storage weg... Nach Neustart des Nodes ging es wieder. Auf dem Host liefen 5 Virtuelle Windows-Server - auf den beiden Server die "am Leben" geblieben waren liefen 2 und 6 Windows-VMs...
In der Vergangenheit hatte ich durchaus schon Patches auf die Synologies gebracht und habe das Problem nicht beobachtet.
Haupt Unterschied: Ich habe seit meinen Tests 3 statt 2 Hosts und ca. 50% mehr Virtuelle Server (ich habe gerade den verbliebenen VMware-Host auf Proxmox umgestellt) - wenn man die Hostauslastung berücksichtig ist das aber eigentlich nicht mehr als vorher...
Hat jemand eine Idee, woran das liegen könnte? Wenn das häufiger vorkommt, kann man die Konfiguration nicht wirklich HA nennen...
VG
Carsten
Ich habe das Problem, dass manchmal ein Proxmox-Host seinen NFS-Storage "verliert" und dann nicht wieder verbinden kann, bis ich den Host neu starte. Die VMs auf dem Host gehen dann in einen Stillstand, was logisch ist, wenn ihre HDD weg ist).
Setting:
3 Proxmox Hosts (Supermicro a2sdi-8c-hln4f mit je 128GB RAM und 10GbE-Netzwerk) in einer Cluster-Konfiguration. Außer der M.2-Bootdisk wird der gesamte Storage per NFS 4.1 von einem Synology 1821+ HA-Cluster bezogen (beide NAS-Systeme sind ebenfalls mit 10GbE angebunden und haben einen 10GbE Heartbeat). [Backups laufen ebenfalls per NFS 4.1 auf eine kleine Synology 418...]
Das lief auch einige Zeit ganz ordentlich und performant.
Nun hatte sich vor ein paar Tagen einer der Nodes komplett weg gehängt. Ein wenig Forschen ergab, dass der Node seinen NFS-Storage nicht mehr ansprechen konnte und seine (durchaus vorhandenen) Reconnect-Versuche scheiterten. Neustart des Nodes... Problem weg.
Nun habe ich alles Mögliche probiert, um das Ganze nachzustellen - und siehe da: Als ich den Synology HA-Cluster auf die passive Seite geschwenkt habe, verlor einer der Nodes (ein anderer als vorher - aber genau einer der drei) die Verbindung und alle VMs blieben stehen.
NFS-Storage weg... Nach Neustart des Nodes ging es wieder. Auf dem Host liefen 5 Virtuelle Windows-Server - auf den beiden Server die "am Leben" geblieben waren liefen 2 und 6 Windows-VMs...
In der Vergangenheit hatte ich durchaus schon Patches auf die Synologies gebracht und habe das Problem nicht beobachtet.
Haupt Unterschied: Ich habe seit meinen Tests 3 statt 2 Hosts und ca. 50% mehr Virtuelle Server (ich habe gerade den verbliebenen VMware-Host auf Proxmox umgestellt) - wenn man die Hostauslastung berücksichtig ist das aber eigentlich nicht mehr als vorher...
Hat jemand eine Idee, woran das liegen könnte? Wenn das häufiger vorkommt, kann man die Konfiguration nicht wirklich HA nennen...
VG
Carsten