nach Stromausfall: pve-cluster startet nicht mehr

Mar 14, 2014
23
0
21
Guten Abend.

Heute fiel bei uns der Strom aus, bei einem Server aus dem Cluster weigert sich pve-cluster zu starten. Die Fehlermeldung ist ein wenig dünn:
Code:
# systemctl status pve-cluster.service
● pve-cluster.service - The Proxmox VE cluster filesystem
     Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
     Active: failed (Result: exit-code) since Fri 2021-10-15 21:29:43 CEST; 3s ago
    Process: 19471 ExecStart=/usr/bin/pmxcfs (code=exited, status=255/EXCEPTION)
        CPU: 10ms

Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Scheduled restart job, restart counter is at 5.
Oct 15 21:29:43 server-02 systemd[1]: Stopped The Proxmox VE cluster filesystem.
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Start request repeated too quickly.
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Failed with result 'exit-code'.
Oct 15 21:29:43 server-02 systemd[1]: Failed to start The Proxmox VE cluster filesystem.
Da die VMs alle per Replikation bzw. Backup verlagert werden konnten, kann ich nun in Ruhe diagnostizieren.

So wie es aussieht, hat der zpool einen Schaden:
Code:
# zpool status -v
  pool: rpool
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 03:44:19 with 0 errors on Sun Oct 10 04:08:20 2021
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          sda2      ONLINE       0     0     3

errors: Permanent errors have been detected in the following files:

        //var/lib/pve-cluster/config.db-wal
        //var/lib/rrdcached/db/pve2-node/server-00
        //var/lib/rrdcached/db/pve2-vm/5201
        //var/log/journal/dfd10e126ecf474580a48188d5e307cd/system@00000000000000000000000000000000-0000000000000000-0000000000000000.journal
        <0x198>:<0x1>
Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?

Ich wäre dankbar für eine Einschätzung...

Grüße,
--
- Jens -
 
Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?
Es kommt hier vermutlich darauf an, wie viel Arbeit/Liebe du in deinen Knoten gesteckt hast.

Falls mich nicht alles täuscht, sind die "error-files" (//var/lib/rrdcached/db/pve2-vm/5201 und co) allesamt die Cluster Datenbank.
Du könntest versuchen, dass du diesen Host aus dem Cluster entfernst und ihn neu hinzufügst?!
 
Falls mich nicht alles täuscht, sind die "error-files" (//var/lib/rrdcached/db/pve2-vm/5201 und co) allesamt die Cluster Datenbank.
Du könntest versuchen, dass du diesen Host aus dem Cluster entfernst und ihn neu hinzufügst?!
Danke für den Hinweis zur Bedeutung der Dateien. Wenn ich die Doku richtig im Kopf habe, sollte man einen Knoten nicht ohne weiteres erneut zu einem Cluster hinzufügen.
Zur Zeit sieht es für mich eher nach einer Neu-Installation aus.
 
Falls du dich entschließt alles von Grund auf neu zu installieren, würde ich mir zur Sicherheit eine Kopie von /etc/pve anlegen.
Damit kannst du bei Bedarf die Konfigurationsparameter nachschlagen.
 
Falls du dich entschließt alles von Grund auf neu zu installieren, würde ich mir zur Sicherheit eine Kopie von /etc/pve anlegen.
Damit kannst du bei Bedarf die Konfigurationsparameter nachschlagen.
Das wird in diesem Falle nichts nuetzen, da das pmxcfs nicht gemountet wird, also ist /etc/pve auf dem kaputten node leer. Jedoch sollte die config auf allen anderen nodes im cluster vorhanden sein.

Ich wuerde hier eher empfehlen zunaechst mit journalctl -u pve-cluster auf Fehlersuche zu gehen warum pmxcfs nicht mehr started und eventuell die sqlite Datenbank zu retten.
https://sqlite.org/wal.html
https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_recovery
 
Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?
Falls auf dem node nichts wichtiges mehr lauft ist es wohl einfacher neu aufzusetzten und den neu installierten node wieder zum cluster hinzuzufuegen. Die kaputten Dateien auf dem ZFS wirst du wohl nicht mehr repariert bekommen, da dein pool keinerlei Redundanz besitzt.
 
Danke für die hier geäußerten Ideen und Einschätzungen. Ich habe den Knoten tatsächlich einfach neu aufgesetzt. Durch die Replikation und die Backups habe ich dabei keine Daten verloren.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!