Proxmox 7.1-8 Status unbekannt während zpool replace?

MSP1978

Member
Mar 18, 2021
30
4
13
45
Mönchengladbach
Guten Abend Zusammen,

ich hatte heute eine defekte HDD in meinem ZFS-Pool (Datastore)

Ich habe als die defekte HDD ausgetauscht und anschließend zpool replace rpool ID-Alt ID-Neu ausgeführt...

Seit dem ist mein Server zwar noch erreichbar, die VMs laufen auch brav, aber die GUI von Proxmox zeigt keine Daten mehr an, alles ist grau oder wartet auf Kommunikation.
Alle Symbole sind mit einem Fragezeichen versehen...

Wenn ich mich mit Putty verbinde, fliege ich nach ein paar Sekunden immer raus mit einer Fehlermeldung, in der kurzen Zeit die mir nach jedem Login bleibt kann ich aber noch mit TOP den Zustand prüfen.
Wenn ich allerdings einen zpool-Befehl ausführe (zB zpool status -v), dann hängt sofort alles...

Muss ich jetzt Sorge haben dass da was komplett im Argen liegt oder einfach ein paar Stunden warten, da einfach nur der Resilver-Prozess aktiv ist? Es handelt sich bei dem Pool um 4x 4TB als RAID10...

Gruss,
Michael
 

Attachments

  • 2021-12-19 21_19_55.png
    2021-12-19 21_19_55.png
    27.5 KB · Views: 9
Normalerweise funktionieren zpool commands auch während eines resilver jobs - die grauen Fragezeichen sind ein indiz darauf, dass pvestatd nicht damit fertig wird seine Daten zu sammeln - üblicherweise weil er von einem Storage keine Antwort bekommt (hier weil die zpool commands hängen).

Es ist natürlich möglich, dass das ZFS einfach so überlastet ist, weil zu viele guests drauf laufen, und das zusätzliche resilver einfach zuviel ist...

In jedem Fall sollte ein `dmesg` vl. noch wertvolle hinweise lieferen - ebenso ein `journalctl -b` (wenn dies noch funktioniert)

Wenn ich mich mit Putty verbinde, fliege ich nach ein paar Sekunden immer raus mit einer Fehlermeldung,
welche fehlermeldung?
 
  • Like
Reactions: MSP1978
Hallo,

also bis gerade eben war PVE nicht erreichbar auf der GUI, lediglich die VMs liefen noch und auch per Putty ist der Server erreichbar gewesen.

Ich habe daraufhin mal einen Reboot angestoßen, und auf einmal ist der Datastore komplett ausgefallen, lediglich 2 HDDs sind am System angemeldet, bedeutet mein RAID10 hat nurnoch 1 von 4 Platten und jene ich die im Austausch eigentlich noch einfügen wollte.
Da muss wohl die 3te Platte beim Resilver ausgefallen sein, da das RAID-10 aus 3x WD RED aus 2015 sowie 1x Seagtae von diesem Jahr bestand... Jetzt haben die 3 Platten also das zeitliche gesegnet, da ich gerade erst beim Testen war, ist das nicht schlimm, da das System noch nicht produktiv war.

Da werde ich jetzt halt mal 2 weitere Platten bestellen und den Raid neu aufbauen müssen.

Was mich nur wundert, ich hatte bis dahin die 4 Platten auf meinem HP Microserver am laufen, da gab es keine Fehler, lag aber wohl eher daran dass die Platten kaum was tun mussten, lediglich als Datengrab fungierten mit relativ wenigen Zugriffen.

Zum Glück gibt es Backups :)

Trotzdem danke für Deinen Hinweis zur Sache.

Wegen Putty noch siehe den Screenshot... das habe ich seit einiger Zeit immer mit Putty... keine Ahnung wieso... allerdings auch nur mit dem PVE, alle VMs laufen ohne Probleme.

Gruss,
Michael
 

Attachments

  • 2021-12-20 18_57_50-192.168.10.254 - PuTTY.png
    2021-12-20 18_57_50-192.168.10.254 - PuTTY.png
    4.2 KB · Views: 9
Wegen Putty noch siehe den Screenshot... das habe ich seit einiger Zeit immer mit Putty... keine Ahnung wieso... allerdings auch nur mit dem PVE, alle VMs laufen ohne Probleme.
wenn die Verbindung zumindest kurzzeitig geht würde ich mal einen blick ins journal von der PVE node werfen - vielleicht steht dort der Grund
 
Hallo Zusammen,

leider muss ich noch einmal den Beitrag öffnen, da ich hier etwas komisches habe.

Nachdem der alte Pool jetzt durch 4 neue Festplatten (2x Seagate, 2x WD) ersetzt wurde und im RAID-10 läuft, habe ich seit heute Mittag auf einer der neuen Platten eine Resilver laufen... der Pool ist Degraded...
Die Platte zeigt 0 READ / 165 WRITE / 89,1 CKSUM an, andere Platten im Pool liegen bei 0 READ / 1 bis max. 6 WRITE / 0 CKSUM

Ist das normal, dass es bei neuen Platten solche Werte gibt oder sollte ich der Platte garnicht trauen und diese zurücksenden?

Und dann noch eine generelle Frage: Ich habe mit PVE den Pool normal über die GUI mit RAID-10, Compression ON und ashift = 12 erstellt.
Gibt es hier für normale Festplatten eventuell noch andere Dinge die "unter der Haube" einzustellen sind, wie zB Grenzwerte usw. die zu einer so frühen Degradierung des Pools führen und die man ggf. anpassen sollte?

Gruss und frohe Feiertage Euch und Euren Familien,
Michael
 
Lese-/Schreib-Fehler kann man schon einmal haben. Z.B. wenn man SMR HDDs benutzt die zum Timeout führen weil SMR einfach totaler Mist ist und die HDDs dann so lahm sind, dass da ZFS denkt die HDDs wäre tot, weil einfach keine rechtzeitige Antwort kommt. Ähnliches kann man haben wenn das SATA-Kabel unzuverlässig ist und nicht richtig Kontakt hat.
Checksum-Fehler sollte man eigentlich nicht haben. Da solltest du mal mit Memtest86+ den RAM über Nacht prüfen lassen. Auch ein zu schwaches/fehlerhaften Netzteil kann Checksum-Fehler verursachen, indem es da bei Hardware zum Brownout kommt oder HDDs ihre Daten verlieren wenn wegen zu wenig Spannung der RAM-Cache verloren geht. Und einen defekten SATA-Controller kann man natürlich auch immer haben.

Was sagt denn smartctl -a /dev/DeineDisk über die neue Disk mit den vielen Fehlern?
 
Last edited:
Hallo,

also die 4 HDDs stecken in einem externen USB-Gehäuse mit USB3.1 und separatem Netzteil. Hier unterstelle ich erst einmal dass das Netzteil ausreichend sein sollte.
Das Gehäuse hängt dann per USB3.1 an einem Minisforum HM80 mit 32GB Ram, wovon ich lediglich 24GB aktuell durch Proxmox und die VMs ausnutze.

smartctl bringt folgende Meldungen hervor:

Code:
root@srv-prox01:~# smartctl -a /dev/sdg
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD40EFZX-xxxxxxx
Serial Number:    WD-WXxxxxxxxxxx
LU WWN Device Id: 5 0014ee xxxxxxxxx
Firmware Version: 81.00A81
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Dec 26 20:48:32 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (40980) seconds.
Offline data collection
capabilities:                    (0x11) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 435) minutes.
SCT capabilities:              (0x303d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   100   253   021    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       2
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       96
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       12
194 Temperature_Celsius     0x0022   123   115   000    Old_age   Always       -       27
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

Selective Self-tests/Logging not supported

Alternativ für die Partition dann das hier:

Code:
root@srv-prox01:~# smartctl -a /dev/sdg1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               WDC WD40
Product:              EFZX-68AWUN0
Revision:             81.0
Compliance:           SPC-4
User Capacity:        4,000,787,030,016 bytes [4.00 TB]
Logical block size:   512 bytes
Physical block size:  4096 bytes
Logical Unit id:      0x50014ee2bexxxxxx
Serial number:        0000000000000004
Device type:          disk
Local Time is:        Sun Dec 26 20:50:44 2021 CET
SMART support is:     Available - device has SMART capability.
SMART support is:     Disabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging

Anbei der Status der Disks im Array noch...

Gruss,
Michael
 

Attachments

  • 2021-12-26 20_30_23-RAID-10.png
    2021-12-26 20_30_23-RAID-10.png
    22.7 KB · Views: 4
SMART sieht eigentlich ok aus. Und die WD40EFZX ist auch CMR also sollte ok sein. Also hängen da alle 4 HDDs in einem externen 4-fach Gehäuse, alle 4 HDDs hängen am selben USB-zu-SATA-Chipsatz und alle 4 HDDs gehen über das selbe USB-Kabel?
Da hast du natürlich wieder den Single-Point-Of-Failure was den Nutzen von Raid etwas aushebelt. Ist dein Kabel z.B. schlecht isoliert oder hat sonstige Macken, dann gehen die Daten für alle 4 Platten ja auf dem Weg vom Server zum externen Case kaputt und entsprechend kann dann auch ein Mirror nicht viel machen, wenn da beide Disks etwas Korruptes schreiben. Und generell ist ja USB schon stärker anfällig für Probleme.
 
Guten Morgen,

vielen Dank für Deine Anmerkung, aber kurz zum Thema Anbindung, wenn ich bisher meinen HP Microserver hatte, ebenfalls 4 HDDs, dann waren die doch auch an einem Controller angebunden der an einem Chip usw. hing. Der einzige Unterschied ist jetzt hier eine weitere Ebene bestehend aus USB-Kabel und dem Controller hierfür.

Da ich aktuell noch am Spielen bin bzw. der einzige bin der seine Daten auf dem Server hat, kann ich jederzeit noch etwas ändern.
Wäre denn ein RAID-Z2 besser geeignet als der Mirror?
Ich hatte damit bereits herumgespielt, aber dabei ist mir immer der Server abgestürzt als der Speicher / Cache vom ZFS voll war beim Daten kopieren.
Daher habe ich mich aktuell für RAID-10 entschieden.

Ich bin für alle Änderungen noch offen die Sinn machen :)
Mein alter Server lief jetzt 6 Jahre ohne Probleme, daher möchte ich Ihn ebenbürdig ablösen was die Laufzeit angeht :)

Gruss,
Michael
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!