Einzelne Proxmox 7.1 Hosts verlieren NFS 4.1 Verbindung zu Synology HA Cluster und können nicht reconnecten

Oct 3, 2021
2
0
1
55
Hallo!
Ich habe das Problem, dass manchmal ein Proxmox-Host seinen NFS-Storage "verliert" und dann nicht wieder verbinden kann, bis ich den Host neu starte. Die VMs auf dem Host gehen dann in einen Stillstand, was logisch ist, wenn ihre HDD weg ist).
Setting:
3 Proxmox Hosts (Supermicro a2sdi-8c-hln4f mit je 128GB RAM und 10GbE-Netzwerk) in einer Cluster-Konfiguration. Außer der M.2-Bootdisk wird der gesamte Storage per NFS 4.1 von einem Synology 1821+ HA-Cluster bezogen (beide NAS-Systeme sind ebenfalls mit 10GbE angebunden und haben einen 10GbE Heartbeat). [Backups laufen ebenfalls per NFS 4.1 auf eine kleine Synology 418...]

Das lief auch einige Zeit ganz ordentlich und performant.

Nun hatte sich vor ein paar Tagen einer der Nodes komplett weg gehängt. Ein wenig Forschen ergab, dass der Node seinen NFS-Storage nicht mehr ansprechen konnte und seine (durchaus vorhandenen) Reconnect-Versuche scheiterten. Neustart des Nodes... Problem weg.

Nun habe ich alles Mögliche probiert, um das Ganze nachzustellen - und siehe da: Als ich den Synology HA-Cluster auf die passive Seite geschwenkt habe, verlor einer der Nodes (ein anderer als vorher - aber genau einer der drei) die Verbindung und alle VMs blieben stehen.
NFS-Storage weg... Nach Neustart des Nodes ging es wieder. Auf dem Host liefen 5 Virtuelle Windows-Server - auf den beiden Server die "am Leben" geblieben waren liefen 2 und 6 Windows-VMs...
In der Vergangenheit hatte ich durchaus schon Patches auf die Synologies gebracht und habe das Problem nicht beobachtet.
Haupt Unterschied: Ich habe seit meinen Tests 3 statt 2 Hosts und ca. 50% mehr Virtuelle Server (ich habe gerade den verbliebenen VMware-Host auf Proxmox umgestellt) - wenn man die Hostauslastung berücksichtig ist das aber eigentlich nicht mehr als vorher...

Hat jemand eine Idee, woran das liegen könnte? Wenn das häufiger vorkommt, kann man die Konfiguration nicht wirklich HA nennen...

VG
Carsten
 
Hat das Problem wirklich niemand außer mir?
Ein Kollege hatte gerade beruflich ein exakt analoges Problem nur mit VMware und NetApp-Storage...
Da war dann die lapidare Antwort vom (VMware) Support: Geht auf NFS3, dann passiert das nicht mehr - aber wir arbeiten an dem Problem.

Ich habe meine Laufwerke unter Proxmox auf NFS3 zurück gedreht und siehe da: es passiert nicht mehr.

Aber kann es wirklich sein, dass das ein hausgemachtes Problem von NFS 4.1 ist? Immerhin ist das Protokoll auch schon ein paar Jahre alt??? Es muss doch eine behebbare Ursache dafür geben?
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!