nach Stromausfall: pve-cluster startet nicht mehr

jens.kuespert · Oct 15, 2021

Guten Abend.

Heute fiel bei uns der Strom aus, bei einem Server aus dem Cluster weigert sich pve-cluster zu starten. Die Fehlermeldung ist ein wenig dünn:

Code:

# systemctl status pve-cluster.service
● pve-cluster.service - The Proxmox VE cluster filesystem
     Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
     Active: failed (Result: exit-code) since Fri 2021-10-15 21:29:43 CEST; 3s ago
    Process: 19471 ExecStart=/usr/bin/pmxcfs (code=exited, status=255/EXCEPTION)
        CPU: 10ms

Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Scheduled restart job, restart counter is at 5.
Oct 15 21:29:43 server-02 systemd[1]: Stopped The Proxmox VE cluster filesystem.
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Start request repeated too quickly.
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Failed with result 'exit-code'.
Oct 15 21:29:43 server-02 systemd[1]: Failed to start The Proxmox VE cluster filesystem.

Da die VMs alle per Replikation bzw. Backup verlagert werden konnten, kann ich nun in Ruhe diagnostizieren.

So wie es aussieht, hat der zpool einen Schaden:

Code:

# zpool status -v
  pool: rpool
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 03:44:19 with 0 errors on Sun Oct 10 04:08:20 2021
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          sda2      ONLINE       0     0     3

errors: Permanent errors have been detected in the following files:

        //var/lib/pve-cluster/config.db-wal
        //var/lib/rrdcached/db/pve2-node/server-00
        //var/lib/rrdcached/db/pve2-vm/5201
        //var/log/journal/dfd10e126ecf474580a48188d5e307cd/system@00000000000000000000000000000000-0000000000000000-0000000000000000.journal
        <0x198>:<0x1>

Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?

Ich wäre dankbar für eine Einschätzung...

Grüße,
--
- Jens -

showiproute · Oct 15, 2021

Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?

Es kommt hier vermutlich darauf an, wie viel Arbeit/Liebe du in deinen Knoten gesteckt hast.

Falls mich nicht alles täuscht, sind die "error-files" (//var/lib/rrdcached/db/pve2-vm/5201 und co) allesamt die Cluster Datenbank.
Du könntest versuchen, dass du diesen Host aus dem Cluster entfernst und ihn neu hinzufügst?!

jens.kuespert · Oct 16, 2021

showiproute said:
Falls mich nicht alles täuscht, sind die "error-files" (//var/lib/rrdcached/db/pve2-vm/5201 und co) allesamt die Cluster Datenbank.
Du könntest versuchen, dass du diesen Host aus dem Cluster entfernst und ihn neu hinzufügst?!

Danke für den Hinweis zur Bedeutung der Dateien. Wenn ich die Doku richtig im Kopf habe, sollte man einen Knoten nicht ohne weiteres erneut zu einem Cluster hinzufügen.
Zur Zeit sieht es für mich eher nach einer Neu-Installation aus.

showiproute · Oct 16, 2021

Falls du dich entschließt alles von Grund auf neu zu installieren, würde ich mir zur Sicherheit eine Kopie von /etc/pve anlegen.
Damit kannst du bei Bedarf die Konfigurationsparameter nachschlagen.

che · Oct 16, 2021

showiproute said:
Falls du dich entschließt alles von Grund auf neu zu installieren, würde ich mir zur Sicherheit eine Kopie von /etc/pve anlegen.
Damit kannst du bei Bedarf die Konfigurationsparameter nachschlagen.

Das wird in diesem Falle nichts nuetzen, da das pmxcfs nicht gemountet wird, also ist /etc/pve auf dem kaputten node leer. Jedoch sollte die config auf allen anderen nodes im cluster vorhanden sein.

Ich wuerde hier eher empfehlen zunaechst mit journalctl -u pve-cluster auf Fehlersuche zu gehen warum pmxcfs nicht mehr started und eventuell die sqlite Datenbank zu retten.
https://sqlite.org/wal.html
https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_recovery

che · Oct 16, 2021

jens.kuespert said:
Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?

Falls auf dem node nichts wichtiges mehr lauft ist es wohl einfacher neu aufzusetzten und den neu installierten node wieder zum cluster hinzuzufuegen. Die kaputten Dateien auf dem ZFS wirst du wohl nicht mehr repariert bekommen, da dein pool keinerlei Redundanz besitzt.

jens.kuespert · Oct 18, 2021

Danke für die hier geäußerten Ideen und Einschätzungen. Ich habe den Knoten tatsächlich einfach neu aufgesetzt. Durch die Replikation und die Backups habe ich dabei keine Daten verloren.

Search

Search

nach Stromausfall: pve-cluster startet nicht mehr

jens.kuespert

Member

showiproute

Well-Known Member

jens.kuespert

Member

showiproute

Well-Known Member

che

Active Member

che

Active Member

jens.kuespert

Member