ZFS nach VM und Host crash beschädigt

BazzT

New Member
Sep 17, 2021
4
0
1
32
Hallo,

leider muss ich nun meinen ersten Post schreiben. Ich beschäftige mich erst seit ca. einem Monat mit Proxmox und konnte bis jetzt immer eine Lösung im Forum finden.
Diesmal scheint es jedoch scherwiegend zu sin.
Mir ist eine VM und dadurch auch der Host abgeschmiert, und der PC musste hart ausgeschaltet werden.
Nach dem Start ließ sich nicht der über das web interface zugreifen.
Daraufhin wurde das System weil es nicht über den Ausschalter neu starten ließ noch einmal hart ausgeschaltet.

Beim Start kommt folgendes:
A Start job is running for /dev/disk/by-uuid/53e3cd76-5332-4...
Die ID gehört nicht zu den installierten Platten, ist diese vom ZFS?
4d6e078a-4631-48fe-aae1-43fd5b04e868.jpg

Nach Neustart ist rpool von Proxmox Degraded weil die Platten zu viele Checksummen-Fehler haben.
Vor dem Vorfall war mit den Platten und Pools alles ok.
Ein scrub hat nicht geholfen.
abdc2adf-bef3-47af-a0e0-605c66bde49b.jpg
734e1c21-442d-4e61-85c3-f1686637cbca.jpg
Fehler liegen vor:
- bei Metadaten
- einigen Bereichen
- rpool/ROOT/pve-1

Gehe ich richtig davon aus, dass mindestens die Metadaten und Root wieder laufen müssen?
Wie gehe ich richtig vor?

Das System herunterzufahren (shutdown -h now) funktioniert auch nicht.
Es kommen in Dauerschleife folgende Nachrichten:
A Job is running for Load/Save Random Seed
A Job is running for Journal Service
A Job is running for /rpool/ROOT
A Job is running for /rpool/data
Die Zeiten laufen zum maximum und werden hochgesetzt
ed4158dd-1bb7-4417-a208-72c2003ac8b3.jpg


Herrsch irgendwie Hoffnung das wieder hinzubiegen?
Gibt es sowas wie eine Reparatur iso für Proxmox also zumindest den teil rpool?


MfG Basti
 
Wenn da die selben Fehler auf allen drei Mirror-Disks sind und Metadaten betroffen sind, dann wird es wohl schwer da noch etwas zu retten. Ist ja keine heile Kopie der Metadaten mehr vorhanden, womit da Scrub noch irgendwas reparieren könnte.
 
Nur zum Verständnis, wie kann das denn passieren?
Wozu hab ich denn dann einen 3-fach-Mirror wenn drei Platten gleich betroffen sind.
Ich dachte immer ZFS ist ein COW-Filesystem bei welchem erst bei geschrieben Änderungen die Metadaten angepasst werden.
Und die Metadaten sind bei ZFS doch auch in größerer Anzahl vorhanden als nur der "RAID/Mirror-Level".

Ich weiß Raid ist kein Backup (die wichtigen Daten sind auch noch gesichert), aber das hätte meiner Meinung nach das System überleben müssen.
Und vom OS hab ich natürlich kein Backup :rolleyes:.

MfG Basti
 
Keine Ahnung ob der bei den Samsung SSDs default an ist. Das könnte der Grund sein, warum alles kaputt ist.
 
Falls deine SSDs z.B. an einem Raid-Controller hängen und nicht am SATA Chipsatz vom Mainboard dann kann es auch sein, dass da der Controller noch dazwischen sitzt und cacht oder anderseitig reinfuscht.
 
Oder ganz billige wie meine, die haben keinen Cache.;)
Im Ernst, Consumer SSDs schreibt ZFS zu schnell kaputt, Enterprise SSDs sind eine bessere Wahl. Ich nutze Ceph und da sind die writes nicht so schlimm wie bei ZFS.
Also am besten erst die Nutzung planen bevor man die HW auswählt.
 
Danke für die Antworten,

in dem Projekt ging es eigentlich darum die vorhanden Hardware zu verwenden.
Also am besten erst die Nutzung planen bevor man die HW auswählt.
Bei Neuanschaffung würde ich auch komplett den Unterbau usw. wechseln aber es ging darum, gehen zu lernen bevor Investiert wird.

Hilft konkret nicht weiter, aber grundsätzlich sind Consumer SSDs die falsche Wahl für ZFS, da (fast alle) dieser SSDs den Cache nicht absichern.

Man braucht SSDs mit "Power Loss Protection", dies gibts bei Samsung bei den

https://www.samsung.com/semiconductor/minisite/ssd/product/data-center/overview/
Grundsätzlich ne Frage, das System hing an einer USV um ausfällen von außen vorzubeugen.
Wenn das System aber hart resettet werden muss hilft das auch nicht. Würde es nicht reichen ein zweites Netzteil für die Platten einzusetzen, sodass diese weiter versorgt würden?


Und zurück zum eigentlichen Thema:
Ich fasse nochmal kurz zusammen, für den Pool gibt es voraussichtlich keine Rettung.
Wenn ich noch eine Platte verbaue und Proxmox parallel neu installiere, wie kann ein zweiter Pool gesucht und gemountet werden (falls dieser noch lebt)?


MfG Basti
 
Wenn das System aber hart resettet werden muss hilft das auch nicht. Würde es nicht reichen ein zweites Netzteil für die Platten einzusetzen, sodass diese weiter versorgt würden?
Klingt recht abenteuerlich. Für 30€ würdest du auch eine gebrauchte 200GB enterprise SSD mit PLP bekommen. Das wäre vermutlich auch nicht teurer.
Wenn ich noch eine Platte verbaue und Proxmox parallel neu installiere, wie kann ein zweiter Pool gesucht und gemountet werden (falls dieser noch lebt)?
zpool import DeinPoolName
 
@BazzT wenn du Consumer SSDs benutzt, einfach den Schreibcache deaktivieren. Solltest du beim weiterbenutzen der SSDs nachholen.
Ich persönlich nutze auch günstige SSDs, würde aber kein ZFS RAID damit bauen. Mit günstigen Disks an einen HW RAID Controller und dann einfach ZFS Formatiert habe ich eher gute Erfahrungen, da der RAID Controller die SSDs mit seinem Cache schont.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!