Guten Abend.
Heute fiel bei uns der Strom aus, bei einem Server aus dem Cluster weigert sich pve-cluster zu starten. Die Fehlermeldung ist ein wenig dünn:
Da die VMs alle per Replikation bzw. Backup verlagert werden konnten, kann ich nun in Ruhe diagnostizieren.
So wie es aussieht, hat der zpool einen Schaden:
Dumme Frage: Kann und sollte ich da etwas reparieren? Oder ist schlauer den Knoten neu aufzusetzen?
Ich wäre dankbar für eine Einschätzung...
Grüße,
--
- Jens -
Heute fiel bei uns der Strom aus, bei einem Server aus dem Cluster weigert sich pve-cluster zu starten. Die Fehlermeldung ist ein wenig dünn:
Code:
# systemctl status pve-cluster.service
● pve-cluster.service - The Proxmox VE cluster filesystem
Loaded: loaded (/lib/systemd/system/pve-cluster.service; enabled; vendor preset: enabled)
Active: failed (Result: exit-code) since Fri 2021-10-15 21:29:43 CEST; 3s ago
Process: 19471 ExecStart=/usr/bin/pmxcfs (code=exited, status=255/EXCEPTION)
CPU: 10ms
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Scheduled restart job, restart counter is at 5.
Oct 15 21:29:43 server-02 systemd[1]: Stopped The Proxmox VE cluster filesystem.
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Start request repeated too quickly.
Oct 15 21:29:43 server-02 systemd[1]: pve-cluster.service: Failed with result 'exit-code'.
Oct 15 21:29:43 server-02 systemd[1]: Failed to start The Proxmox VE cluster filesystem.
So wie es aussieht, hat der zpool einen Schaden:
Code:
# zpool status -v
pool: rpool
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: scrub repaired 0B in 03:44:19 with 0 errors on Sun Oct 10 04:08:20 2021
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
sda2 ONLINE 0 0 3
errors: Permanent errors have been detected in the following files:
//var/lib/pve-cluster/config.db-wal
//var/lib/rrdcached/db/pve2-node/server-00
//var/lib/rrdcached/db/pve2-vm/5201
//var/log/journal/dfd10e126ecf474580a48188d5e307cd/system@00000000000000000000000000000000-0000000000000000-0000000000000000.journal
<0x198>:<0x1>
Ich wäre dankbar für eine Einschätzung...
Grüße,
--
- Jens -