NFS-Server-Problem führt zur Nicht-Erreichbarkeit der GUI von PVE

Ralli

Member
Dec 4, 2022
42
9
8
Guten Tag zusammen,

mein Setup besteht aus einem 2+1 PVE-HA-Cluster, also zwei Nodes und ein QDevice, und wird im Homelab betrieben.

Ich habe ein paar LXC und eine VM auf beiden Nodes laufen, Disk-Images im local-zfs. Lediglich ein einziger (Nicht-HA) LXC ist mit einem Disk-Image konfiguriert, welches auf einer Synology abgelegt ist und über deren NFS-Server eingebunden wird. Über mehrere Monate hat das einwandfrei funktioniert, seit dem Update der Synology auf 7.2.1 vor einigen Tagen ist jedoch jetzt ein paar wenige male dieser LXC abgestürzt mit dem Eintrag im Syslog, dass der NFS-Server nicht (mehr) geantwortet hätte. Die Ursache habe ich noch nicht herausgefunden, kümmere ich mich demnächst darum.

Allerdings ist mir in diesem Zusammenhang aufgefallen, dass dieser aufgetretene Fehler dazu geführt hat, dass die GUI des Nodes, auf dem der LXC lief, keine Anmeldung mehr zuließ (Webseite war erreichbar aber Anmeldung wurde abgewiesen) und nach erfolgreichen Aufruf der GUI auf dem zweiten Node erkennbar war, dass sämtliche Stati des Nodes und der LXCs nicht mehr dargestellt wurden (alles grau und mit Fragezeichen). Nach wiederum kurzer Zeit war auch auf dem zweiten Node kein Anmelden an der GUI mehr möglich. Ein Login über ssh war unproblematisch möglich, darüber konnte ich die Tasks/Threads, die mit dem LXC in Verbindung standen, der das Problem mit dem NFS-Image hatte, abschießen. Danach war auch ein Anmelden über die GUI wieder möglich und die Stati der Nodes und der LXC wurden wieder "ordentlich" dargestellt. PVECM status hatte übrigens keine Auffälligkeiten bzw. andere Ausgaben als sonst gezeigt. Alle LXCs und VMs der Hosts funktionierten weiterhin.

Zu der "längeren" Geschichte habe ich nun folgende Anmerkungen/Fragen:
1) Als mir das auffiel, bestand in anderen LXC/VMs der Zugriff auf per NFS gemountete Shares über den Host, sollte der NFS-Server der Synology "gehustet" haben, war das schon längst wieder rum
2) ein fsck des auf dem NFS liegenden Disk-Images des betreffenden LXCs zeigte "clean"
3) Ein einwandfreies Anmelden an der GUI des Nodes sollte nicht durch einen solchen Fehler beeinträchtigt werden
4) Die Darstellung der Stati des Nodes und der LXCs/VMs sollte in der GUI nicht durch einen solchen Fehler beeinträchtigt sein

Ist das beschriebene Verhalten bekannt bzw. schon einmal jemand anderem aufgefallen?
Gibt es jemandem, der ebenfalls eine Synology mit 7.2.1als NFS-Server nutzt und dem seitdem auch Verbindungsabbrüche aufgefallen sind?
 
Pvestatd hat Probleme mit Storages die nicht erreichbar sind. Siehe z.B. hier meinen Thread sowie das Bug-Tracker-Ticket dazu.
Da hilft dann per SSH einloggen und den Storage wieder erreichbar machen oder wenn das nicht klappt den Storage per "pvesm set --disable 1 DeineStorageId" zu deaktivieren, damit das webUI wieder geht.
 
Last edited:
  • Like
Reactions: Ralli
Vielen Dank für die Rückmeldung. Die Ursache für das Fehlverhalten ist damit gefunden und behoben.

Bleiben für mich aber tatsächlich noch die meines Erachtens offenen Punkte 3) und 4).
 
Punkt 3 und 4 sind ganz normal, bei jedem Hypervisor.
Wenn du einem ESXi den Storage wo VMs drauf laufen wegnimmst, reagiert der auch nicht mehr.
Du kannst maximal die VMs / LXC per Script killen wenn dein Storage verloren geht und dann reagiert der PVE wieder ganz normal.
 
So verallgemeinert ist das nicht korrekt. Es kommt darauf an, wie und für was externe Speicher eingebunden sind.

Und hier liegt der Fehler ja darin, dass der pvestatd offensichtlich in einer solchen Situation hängt.
 
So verallgemeinert ist das nicht korrekt. Es kommt darauf an, wie und für was externe Speicher eingebunden sind.

Und hier liegt der Fehler ja darin, dass der pvestatd offensichtlich in einer solchen Situation hängt.
Das kann man so verallgemeinern. Solange es externer Speicher ist, wie NFS, iSCSI, FC, NVMeoF oder anderes. Und es müssen VMs oder LXC drauf laufen, also aktive Zugriffe. Das legt auch einen HyperV oder Xen Server lahm. Ich kenne solche Phänomene seit ich mit Virtualisierung arbeite (2006).
Was einen Unterschied macht, wenn ich das Storage per iSCSI oder FC o.ä. angebunden habe, reagiert das System nach einigen Minuten wieder, wenn das Storage wiederkommt. Bei einem mount von NFS oder SMB, funktioniert das leider nicht so einfach, vermutlich müsste man neu mounten.

Das ganze ist aber eh egal, wenn du Verfügbarkeit brauchst, musst du zuerst beim Storage anfangen. Das ist die Basis aller Dienste.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!