PVE verliert alle VMs nach RAID-Fehler

Dec 19, 2012
509
16
83
Hallo.
Heute trat hier ein sehr merkwürdiges Problem auf: Im laufenden Betrieb wurden plötzlich alle VMs heruntergefahren. Ein Blick auf den Server verriet, dass es ein Problem mit dem RAID gibt. Da ist offenbar ein Platte verreckt. Beim Neustart wurde das auch als "critical" bemängelt. Dennoch startete der Server neu ..... aber: Beim Einloggen in die WebGUI musste ich mit Entsetzen festellen, dass keine einzige VM mehr angezeigt wurde. Auf der Shell hingegen zeigte "qm list", dass die VMs laufen. Was kann da schief gelaufen sein?
Der Pfad /etc/pve/nodes/... ist natürlich weiterhin vorhanden. Zudem läuft hier das System auch nicht auf dem betroffenen RAID sondern getrennt. Wie gesagt: Gemountet wird das RAID trotz kritischem Status problemlos; dennoch ist das System durcheinander geraten... wo suchen?

(Dann noch eine andere Frage (OT): Ist es richtig, dass man den nfs-kernel-server unter Proxmox nicht mehr ohne weiteres installieren kann? Der nfs-common-Service wollte nicht starten -- Meldung "Dienst ist maksiert".
Ist das so gewollt?? Und falls ja: Warum? )

Danke für ein paar Tipps!
 
(Dann noch eine andere Frage (OT): Ist es richtig, dass man den nfs-kernel-server unter Proxmox nicht mehr ohne weiteres installieren kann? Der nfs-common-Service wollte nicht starten -- Meldung "Dienst ist maksiert".
Ist das so gewollt?? Und falls ja: Warum? )

Der Server heißt nicht nfs-common. Installiere bitte nfs-kernel-server.

Im laufenden Betrieb wurden plötzlich alle VMs heruntergefahren. Ein Blick auf den Server verriet, dass es ein Problem mit dem RAID gibt.

Meistens hat man dann schon zwei Probleme mit dem RAID, wenn das Betriebssystem Sachen herunterfährt oder den Ausfall überhaupt mitbekommt.

Da die Konfiguration der VMs, sowie das Betriebssystem auf einem anderen Storage liegt - wenn ich das richtig verstehe - scheint es so, als gäbe es dort auch Problem. Kann man dort das RAID auch prüfen?
 
Hi. Wenn ich mich richtig erinnere, hat der nfs-kernel-server das common-Paket mit angezogen. Ich habe es letztlich so gelöst, wie es hier steht: https://blog.ruanbekker.com/blog/2017/12/09/unmask-a-masked-service-in-systemd/ (also der Teil ohne docker ... )

Die Systemplatte ist kein RAID. Das ist eine Single-SSD. Da alles normal hochfährt und ich auch den Mountpunkt /mnt/raid10 ganz normal und auch den Inhalt bzw alle VMs erreichen kann (auch trotz des RAID-Fehlers), sehe ich weiterhin nicht, warum in der WebGUI plötzlich alle VMs verschwunden sind??
 
Last edited:
Die Systemplatte ist kein RAID. Das ist eine Single-SSD. Da alles normal hochfährt und ich auch den Mountpunkt /mnt/raid10 ganz normal und auch den Inhalt bzw alle VMs erreichen kann (auch trotz des RAID-Fehlers), sehe ich weiterhin nicht, warum in der WebGUI plötzlich alle VMs verschwunden sind??

Was für ein Dateisystem läuft auf der SSD? Vielleicht mal ein fsck machen und in die dmesg schauen.