Hallo zusammen,
nachdem bisher alles problemlos lief, musste natürlich kurz vor Jahresende doch noch was passieren.
Ich habe vor ca. 1 Monat Proxmox (7.1-8) auf einen neuen Intel NUC 11 mit einer Samsung 970 EVO Plus 1 TB PCIe 3.0 NVMe M.2 (MZ-V7S1T0BW) installiert.
Bisher lief auch alles ohne Probleme. Gestern jedoch habe ich den NUC sauber heruntergefahren.
Beim Starten jedoch, bekam ich die Fehlermeldung: "No bootable device detected".
Via USB Stick und Proxmox Recovery konnte ich den Bootloader wiederherstellen und danach war ein Start wieder problemlos möglich.
Auf der Suche nach der Ursache musste ich feststellen, dass eine VM beschädigt war. Weder kopieren noch ein Backup via PBS war möglich. (I/O error)
Habe mir dann die SMART Werte der Festplatte genauer angeschaut und habe dort ein paar Error festgestellt
smartctl -a /dev/nvme0
dmesg --level=err,warn
Ich gehe mal davon aus, dass diese Werte für eine neue Festplatte nicht normal sind.
Leider weiß ich nicht genau wie ich diese Werte jetzt zu interpretieren habe und habe bisher auch noch keine/wenig Erfahrung im Bezug auf NVMe's.
Deshalb hoffe auf euere Einschätzungen bzw. Hilfe/Empfehlungen.
- Muss ich mir sorgen machen und so schnell wie möglich die Festplatte ersetzen? -> Hier wäre dann natürlich ganz klar ein Garantieanspruch von meiner Seite
- Welche Möglichkeiten habe ich noch um um den Fehler ggf. zu beheben? Ggf. defekte Sektoren reparieren?
Falls ich noch weitere/andere Daten liefern soll, werde ich dies natürlich gerne nachreichen.
Danke und Gruß
Esche
nachdem bisher alles problemlos lief, musste natürlich kurz vor Jahresende doch noch was passieren.
Ich habe vor ca. 1 Monat Proxmox (7.1-8) auf einen neuen Intel NUC 11 mit einer Samsung 970 EVO Plus 1 TB PCIe 3.0 NVMe M.2 (MZ-V7S1T0BW) installiert.
Bisher lief auch alles ohne Probleme. Gestern jedoch habe ich den NUC sauber heruntergefahren.
Beim Starten jedoch, bekam ich die Fehlermeldung: "No bootable device detected".
Via USB Stick und Proxmox Recovery konnte ich den Bootloader wiederherstellen und danach war ein Start wieder problemlos möglich.
Auf der Suche nach der Ursache musste ich feststellen, dass eine VM beschädigt war. Weder kopieren noch ein Backup via PBS war möglich. (I/O error)
Habe mir dann die SMART Werte der Festplatte genauer angeschaut und habe dort ein paar Error festgestellt
smartctl -a /dev/nvme0
Bash:
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-2-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 970 EVO Plus 1TB
Serial Number: S6P7NG0RA32470K
Firmware Version: 3B2QEXM7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 6
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization: 182,044,917,760 [182 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5a11507ed6
Local Time is: Fri Dec 31 10:32:07 2021 CET
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0057): Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f): S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 128 Pages
Warning Comp. Temp. Threshold: 82 Celsius
Critical Comp. Temp. Threshold: 85 Celsius
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 7.54W - - 0 0 0 0 0 0
1 + 7.54W - - 1 1 1 1 0 200
2 + 7.54W - - 2 2 2 2 0 1000
3 - 0.0500W - - 3 3 3 3 2000 1200
4 - 0.0050W - - 4 4 4 4 500 9500
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 27 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 7,332,028 [3.75 TB]
Data Units Written: 1,356,053 [694 GB]
Host Read Commands: 31,087,316
Host Write Commands: 48,214,174
Controller Busy Time: 879
Power Cycles: 65
Power On Hours: 611
Unsafe Shutdowns: 22
Media and Data Integrity Errors: 107
Error Information Log Entries: 107
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 27 Celsius
Temperature Sensor 2: 28 Celsius
Error Information (NVMe Log 0x01, 16 of 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 107 7 0x71dc 0xc502 0x000 4280 1 -
1 106 7 0x91db 0xc502 0x000 4280 1 -
2 105 7 0xb1da 0xc502 0x000 4280 1 -
3 104 6 0x520b 0xc502 0x000 4280 1 -
4 103 5 0x81dc 0xc502 0x000 4280 1 -
5 102 5 0xb1db 0xc502 0x000 4280 1 -
6 101 2 0xd1bb 0xc502 0x000 4280 1 -
7 100 2 0x41ba 0xc502 0x000 4280 1 -
8 99 2 0xd1b9 0xc502 0x000 4280 1 -
9 98 2 0xb1b0 0xc502 0x000 4280 1 -
10 97 2 0xc1af 0xc502 0x000 4280 1 -
11 96 2 0xc1ae 0xc502 0x000 4280 1 -
12 95 1 0x636c 0xc502 0x000 4280 1 -
13 94 1 0x236b 0xc502 0x000 4280 1 -
14 93 1 0x7354 0x4502 0x000 4344 1 -
15 92 1 0x6353 0x4502 0x000 4280 1 -
dmesg --level=err,warn
Code:
[ 5626.663447] blk_update_request: critical medium error, dev nvme0n1, sector 4104 op 0x0:(READ) flags 0x80700 phys_seg 28 prio class 0
[ 5626.821844] blk_update_request: critical medium error, dev nvme0n1, sector 4328 op 0x0:(READ) flags 0x80700 phys_seg 32 prio class 0
[ 5626.824154] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5626.824198] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5626.978652] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5626.978667] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5766.372942] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5766.372976] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5766.527113] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5766.527122] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5766.681085] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5766.681110] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5801.688722] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5801.688732] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5801.842745] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5801.842768] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5801.996880] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5801.996909] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5869.282995] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5869.283004] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5869.453501] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5869.453510] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5869.628139] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 5869.628180] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 5940.504086] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6007.025818] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6036.348850] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6046.640797] EXT4-fs (dm-18): write access unavailable, skipping orphan cleanup
[ 6791.279221] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 6791.279257] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 6791.433756] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 6791.433790] Buffer I/O error on dev nvme0n1, logical block 535, async page read
[ 6791.589211] blk_update_request: critical medium error, dev nvme0n1, sector 4280 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 6791.589218] Buffer I/O error on dev nvme0n1, logical block 535, async page read
Ich gehe mal davon aus, dass diese Werte für eine neue Festplatte nicht normal sind.
Leider weiß ich nicht genau wie ich diese Werte jetzt zu interpretieren habe und habe bisher auch noch keine/wenig Erfahrung im Bezug auf NVMe's.
Deshalb hoffe auf euere Einschätzungen bzw. Hilfe/Empfehlungen.
- Muss ich mir sorgen machen und so schnell wie möglich die Festplatte ersetzen? -> Hier wäre dann natürlich ganz klar ein Garantieanspruch von meiner Seite
- Welche Möglichkeiten habe ich noch um um den Fehler ggf. zu beheben? Ggf. defekte Sektoren reparieren?
Falls ich noch weitere/andere Daten liefern soll, werde ich dies natürlich gerne nachreichen.
Danke und Gruß
Esche