Ein sehr schneller, sehr realer Test (HDD Ausfall ZFS Raid1)

SebastianFranke

New Member
Dec 20, 2021
5
0
1
45
Halle/S.
Hallo werte Forumsgemeinde,

ich habe seit 3 Tagen eine Testinstanz von Proxmox laufen, um meine diverse Raspberry Systeme auf einer Hardware zu konsolidieren.
Als Hardware nutze ich einen alten Client (AMD Athlon II X4 640, 16GB RAM, 2x320GB HDD)
Bis jetzt bin ich schwer begeistert, dass nun direkt gleich ein "Ernstfall" eintritt... naja... lieber beim Testen, als dann in der produktiven Umgebung.

Bei der Installation habe ich geistesgegenwärtig aus den beiden vorhandenen Festplatten ein ZFS Raid1 bauen lassen.
Die Platten sind nicht hotplug-fähig und eine der beiden hat sich gerade mit einem leisen "klick klick brrrrrrr" verabschiedet. R.I.P. :-(

Unter Datacenter - pve - Disks- ZFS sehe ich den rpool mit dem Status "DEGRADED", die beiden Platten unter mirror-0 zeigen ONLINE bzw. UNAVAIL.

Soweit so gut. Das System ist noch online, die VMs bzw. Container laufen noch.
Das ist ein massiver Vorteil gegenüber den Raspberrys- da hatte ich nach SD Karten- Schäden immer etwas zu tun, um die Sicherungen wiederherzustellen.

Ich würde jetzt Kraft meiner Wassersuppe
- Host herunterfahren
- Platte gegen kapazitiv gleichwertige tauschen (hätte ich sogar)
- Host neu starten

Wird die neue Platte automatisch erkannt und ein restore angestoßen? Wenn nein, wie ist das weitere Vorgehen?
Ich hab mich dies tatsächlich noch nicht getraut, um nichts "kaputt" zu machen. Es sind zwar nur "Testdaten" und nichts wichtiges auf dem System, aber naja... einmal richtig durchspielen ist vielleicht auch nicht verkehrt.

Danke für eure Hilfe!

Beste Grüße
Sebastian

Nachtrag:
Hätte ich eine Mailbenachrichtigung konfiguriert, dann hätte ich doch bestimmt auch eine Alarmmeldung bekommen, oder?
 
Last edited:
Hätte ich eine Mailbenachrichtigung konfiguriert, dann hätte ich doch bestimmt auch eine Alarmmeldung bekommen, oder?
Im Spam gelandet? AFAIR sollte das eine Mail schicken. Ansonsten schau mal anhand der Anleitung hier, ob das nicht alles richtig gesetzt ist: https://pve.proxmox.com/wiki/ZFS_on_Linux#_activate_e_mail_notification


Ich würde jetzt Kraft meiner Wassersuppe
- Host herunterfahren
- Platte gegen kapazitiv gleichwertige tauschen (hätte ich sogar)
- Host neu starten
Genau, anhand der Seriennummern die auch im zpool status aufscheinen sollten, kannst du schneller herausfinden welche der Zwei die kaputte ist.

Wird die neue Platte automatisch erkannt und ein restore angestoßen? Wenn nein, wie ist das weitere Vorgehen?
Das ist ganz gut in unserem Admin Guide erklärt: https://pve.proxmox.com/pve-docs/pve-admin-guide.html#chapter_zfs Suche hier nach "Changing a failed bootable device".

Sollte nicht zu schwer sein, das einzige wo du wirklich aufpassen musst, ist beim Klonen der Partitionstabelle, damit das wirklich in die richtige Richtung geht.
 
Im Spam gelandet? AFAIR sollte das eine Mail schicken. Ansonsten schau mal anhand der Anleitung hier, ob das nicht alles richtig gesetzt ist: https://pve.proxmox.com/wiki/ZFS_on_Linux#_activate_e_mail_notification
Außerdem klappt da Mail-Versand nicht Out-of-the-Box. Du musst dir da erst manuell deinen Postfix-Server einrichten.
ich habe seit 3 Tagen eine Testinstanz von Proxmox laufen, um meine diverse Raspberry Systeme auf einer Hardware zu konsolidieren.
Als Hardware nutze ich einen alten Client (AMD Athlon II X4 640, 16GB RAM, 2x320GB HDD)
Bis jetzt bin ich schwer begeistert, dass nun direkt gleich ein "Ernstfall" eintritt... naja... lieber beim Testen, als dann in der produktiven Umgebung.
Für den produktiven 24/7 Betrieb würde ich dann aber doch schon neuere Hardware nehmen, ansonsten wirst du bei der Stromnachzahlung von einigen hundert Euro mehr überrascht. Würde mich wundern wenn so ein alter Rechner unter 100W braucht (mein AM3+ Board lag immer so bei 130W Idle). Bei 35 Cent/kWh wären 100W im Dauerbetrieb dann schon 306€ im Jahr.
 
Hallo,

Danke für die Antworten.

Den Postfix hatte ich mir vorgenommen, aber noch nicht geschafft.
Nach dem Test soll Proxmox auf einem aktuellen Client mit i5/i7, 32GB und SSD only laufen. Geschützt mit einer USV.
Der Athlon stand halt noch rum.... :-D

Dann wage ich mich mal an den Plattentausch und melde mich mit der Erfolgsmeldung (oder meinem kläglichen Scheitern).

Beste Grüße
Sebastian
 
Hallo,

die Doku ist zwar gut, aber leider nicht ganz Sebastian-Konform :-/

Ich habe das System runtergefahren, Platte ersetze und wieder hochgefahren.

pve02-01.png


Code:
# sgdisk <healthy bootable device> -R <new device>
# sgdisk -G <new device>
# zpool replace -f <pool> <old zfs partition> <new zfs partition>

Code:
sgdisk 7D83-216B -R 12471968993615180593
erzeugt die Meldung

Problem opening 7D83-216B for reading! Error is 2.
The specified file does not exist!

Wo liegt mein Denkfehler? Ist die 12347... nicht das <new device>?

pve02-02.png

Danke für Eure Hilfe.

Beste Grüße
Sebastian
 
Du solltest schon die eindeutigen Pfade zu den Devices angeben. Also "/dev/disk/by-id/heileAlteDisk" bzw "/dev/disk/by-id/neueLeereDisk". Pfade findest du am besten über ls -l /dev/disk/by-id/ heraus.

"<healthy bootable device>" wäre übrigens "/dev/disk/by-id/ata-ST9320325AS_5VD206BB" (ohne die "-part3" am Ende da du das ganze Device und nicht nur dessen dritte ZFS-Partition willst).
 
Last edited:
Im Spam gelandet? AFAIR sollte das eine Mail schicken. Ansonsten schau mal anhand der Anleitung hier, ob das nicht alles richtig gesetzt ist: https://pve.proxmox.com/wiki/ZFS_on_Linux#_activate_e_mail_notification
Ich habe die Tage genutzt und die Mailbenachrichtigung bzw. Postfix konfiguriert (Adminguide, + LINK).

Die Testmail über die Kommandozeile kommt beim Empfänger an
echo "Proxmox SMTP Test" | mail -s "SMTP Test" an@adresse.de -r von@adresse.de

Nun habe ich das Szenario durch hartes ziehen einer Platte nochmal nachgestellt.
Die Mail, dass das Raid1 wiederhergestellt wurde kam an, aber eine Benachrichtigung, dass der Status von Online auf Degraded gewechselt ist, kam nicht an.
Muss das separat, an anderer Stelle, konfiguriert werden?

Beste Grüße
Sebastian
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!