Nach Neustart Bootloader und VM defekt. NVMe defekt?

esche

Member
Dec 31, 2021
3
0
6
38
Hallo zusammen,

nachdem bisher alles problemlos lief, musste natürlich kurz vor Jahresende doch noch was passieren.
Ich habe vor ca. 1 Monat Proxmox (7.1-8) auf einen neuen Intel NUC 11 mit einer Samsung 970 EVO Plus 1 TB PCIe 3.0 NVMe M.2 (MZ-V7S1T0BW) installiert.
Bisher lief auch alles ohne Probleme. Gestern jedoch habe ich den NUC sauber heruntergefahren.

Beim Starten jedoch, bekam ich die Fehlermeldung: "No bootable device detected".
Via USB Stick und Proxmox Recovery konnte ich den Bootloader wiederherstellen und danach war ein Start wieder problemlos möglich.
Auf der Suche nach der Ursache musste ich feststellen, dass eine VM beschädigt war. Weder kopieren noch ein Backup via PBS war möglich. (I/O error)

Habe mir dann die SMART Werte der Festplatte genauer angeschaut und habe dort ein paar Error festgestellt


smartctl -a /dev/nvme0
Bash:
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-2-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO Plus 1TB
Serial Number:                      S6P7NG0RA32470K
Firmware Version:                   3B2QEXM7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      6
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization:            182,044,917,760 [182 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 5a11507ed6
Local Time is:                      Fri Dec 31 10:32:07 2021 CET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0057):     Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.54W       -        -    0  0  0  0        0       0
 1 +     7.54W       -        -    1  1  1  1        0     200
 2 +     7.54W       -        -    2  2  2  2        0    1000
 3 -   0.0500W       -        -    3  3  3  3     2000    1200
 4 -   0.0050W       -        -    4  4  4  4      500    9500

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        27 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    7,332,028 [3.75 TB]
Data Units Written:                 1,356,053 [694 GB]
Host Read Commands:                 31,087,316
Host Write Commands:                48,214,174
Controller Busy Time:               879
Power Cycles:                       65
Power On Hours:                     611
Unsafe Shutdowns:                   22
Media and Data Integrity Errors:    107
Error Information Log Entries:      107
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               27 Celsius
Temperature Sensor 2:               28 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0        107     7  0x71dc  0xc502  0x000         4280     1     -
  1        106     7  0x91db  0xc502  0x000         4280     1     -
  2        105     7  0xb1da  0xc502  0x000         4280     1     -
  3        104     6  0x520b  0xc502  0x000         4280     1     -
  4        103     5  0x81dc  0xc502  0x000         4280     1     -
  5        102     5  0xb1db  0xc502  0x000         4280     1     -
  6        101     2  0xd1bb  0xc502  0x000         4280     1     -
  7        100     2  0x41ba  0xc502  0x000         4280     1     -
  8         99     2  0xd1b9  0xc502  0x000         4280     1     -
  9         98     2  0xb1b0  0xc502  0x000         4280     1     -
 10         97     2  0xc1af  0xc502  0x000         4280     1     -
 11         96     2  0xc1ae  0xc502  0x000         4280     1     -
 12         95     1  0x636c  0xc502  0x000         4280     1     -
 13         94     1  0x236b  0xc502  0x000         4280     1     -
 14         93     1  0x7354  0x4502  0x000         4344     1     -
 15         92     1  0x6353  0x4502  0x000         4280     1     -

dmesg --level=err,warn
Code:
[ 5626.663447] blk_update_request: critical medium error, dev nvme0n1, sector 4104 op 0x0:(READ) flags 0x80700 phys_seg 28 prio class 0
[ 5626.821844] blk_update_request: critical medium error, dev nvme0n1, sector 4328 op 0x0:(READ) flags 0x80700 phys_seg 32 prio class 0
[ 5626.824154] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5626.824198] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5626.978652] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5626.978667] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5766.372942] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5766.372976] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5766.527113] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5766.527122] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5766.681085] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5766.681110] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5801.688722] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5801.688732] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5801.842745] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5801.842768] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5801.996880] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5801.996909] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5869.282995] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5869.283004] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5869.453501] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5869.453510] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5869.628139] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5869.628180] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5940.504086] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6007.025818] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6036.348850] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6046.640797] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6791.279221] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 6791.279257] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 6791.433756] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 6791.433790] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 6791.589211] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 6791.589218] Buffer I/O error on dev nvme0n1, logical block 535, async page read

Ich gehe mal davon aus, dass diese Werte für eine neue Festplatte nicht normal sind.

Leider weiß ich nicht genau wie ich diese Werte jetzt zu interpretieren habe und habe bisher auch noch keine/wenig Erfahrung im Bezug auf NVMe's.

Deshalb hoffe auf euere Einschätzungen bzw. Hilfe/Empfehlungen.

- Muss ich mir sorgen machen und so schnell wie möglich die Festplatte ersetzen? -> Hier wäre dann natürlich ganz klar ein Garantieanspruch von meiner Seite
- Welche Möglichkeiten habe ich noch um um den Fehler ggf. zu beheben? Ggf. defekte Sektoren reparieren?

Falls ich noch weitere/andere Daten liefern soll, werde ich dies natürlich gerne nachreichen.

Danke und Gruß
Esche
 
Wie siehen denn die SMART Werte aus, wenn du im GUI auf den Host -> Disks -> Show S.M.A.R.T. Values gehst?
Wie sieht der `Wearout` der Disk aus?

Grundsätzlich nutzen sich Consumer SSDs recht schnell ab, also je nachdem wie viel geschrieben wurde, und wie die Qualität dieser SSD ist, kann es schon sein dass es hier recht schnell zu Fehlern kommt. Wobei 1 Monat doch eine sehr kurze Zeit ist.
 
S.M.A.R.T Values
Bash:
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        28 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    7,334,153 [3.75 TB]
Data Units Written:                 1,357,196 [694 GB]
Host Read Commands:                 31,102,954
Host Write Commands:                48,237,192
Controller Busy Time:               879
Power Cycles:                       65
Power On Hours:                     611
Unsafe Shutdowns:                   22
Media and Data Integrity Errors:    107
Error Information Log Entries:      107
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               28 Celsius
Temperature Sensor 2:               28 Celsius

Wo genau finde ich den "Wearout" ? Wenn damit u. a. TBW gemeint ist, dann bin ich eigentlich meilenweit von der Hersteller-Specifikation entfernt.
Edit: Wearout in Proxmox gefunden: 0%
 
Last edited:
Schau ob es eventuell ein Firmware Update gibt, das die Fehler behebt. (War bei der Intel 600p in meiner Workstation der Fall)
Wenn das nichts bringt -> RMA, da es sich in diesem Fall um ein Hardware Problem handelt.
 
Also für den NUC ist bereits die aktuellste Firmware installiert.
Für die NVMe scheint es (soweit ich es verstehe) eine neuere Version zu geben.
Würde aber vermeiden wollen damit zu experimentieren (Zwecks Garantie etc.), wenn ich eigentlich sicher sein kann, dass die Festplatte bereits defekt ist.
 
Firmware-Aktualisierung sollte ja eigentlich keine Garantie beeinträchtigen, kommt ja schließlich genau zum Bugs/Sicherheitslücken fixen direkt vom Hersteller.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!