Plötzlicher Reboot & NVMe Errors

Poet

New Member
Oct 19, 2022
9
0
1
Hallo zusammen,

ich habe gestern Proxmox installiert auf meiner neuen Hardware und mir ist schon zum 3. Mal der komplette Hypervisor abgeschmiert. Ich bin langsam echt am Verzweifeln, da ich in den Logs keine Anzeichen für einen Defekt, Kernel Panic oder sonst was sehe.

Der letzte Reboot war: 13:59 Uhr - damit man sich in den Logfiles orientieren kann

Ich sehe NVMe Meldungen wie:

Device: /dev/nvme0, number of Error Log entries increased from 18 to 20

und der nvmepool hat auch schon Fehler geworfen:

zfs-import@nvmepool.service: Main process exited, code=exited, status=1/FAILURE

Hier mal das dmesg Log:
https://gist.github.com/hardcore/4e3fab11b2f9fa56162f935628a9d518

Hier das ganze syslog:
https://gist.github.com/hardcore/b33920bcce39101c3709d33715218655

Ich habe mir folgende NVMes eingebaut: Kingston KC3000.

Bash:
root@proxmox:~# smartctl -a /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.30-2-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       KINGSTON SKC3000S1024G
Serial Number:                      50026B7686069248
Firmware Version:                   EIFK31.6
PCI Vendor/Subsystem ID:            0x2646
IEEE OUI Identifier:                0x0026b7
Total NVM Capacity:                 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity:           0
Controller ID:                      1
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            0026b7 6860692485
Local Time is:                      Wed Oct 19 14:41:46 2022 CEST
Firmware Updates (0x12):            1 Slot, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005d):     Comp DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x08):         Telmtry_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     84 Celsius
Critical Comp. Temp. Threshold:     89 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.80W       -        -    0  0  0  0        0       0
 1 +     7.10W       -        -    1  1  1  1        0       0
 2 +     5.20W       -        -    2  2  2  2        0       0
 3 -   0.0620W       -        -    3  3  3  3     2500    7500
 4 -   0.0620W       -        -    4  4  4  4     2500    7500

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         2
 1 -    4096       0         1

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        22 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    15,285 [7.82 GB]
Data Units Written:                 348,449 [178 GB]
Host Read Commands:                 699,273
Host Write Commands:                2,315,277
Controller Busy Time:               6
Power Cycles:                       43
Power On Hours:                     32
Unsafe Shutdowns:                   36
Media and Data Integrity Errors:    0
Error Information Log Entries:      22
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 2:               51 Celsius

Error Information (NVMe Log 0x01, 16 of 63 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         22     0  0x2001  0x4004      -            0     0     -
  1         21     0  0x1001  0x4004  0x028            0     0     -


root@proxmox:~# smartctl -a /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.30-2-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       KINGSTON SKC3000S1024G
Serial Number:                      50026B7685EFFF01
Firmware Version:                   EIFK31.6
PCI Vendor/Subsystem ID:            0x2646
IEEE OUI Identifier:                0x0026b7
Total NVM Capacity:                 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity:           0
Controller ID:                      1
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            0026b7 685efff015
Local Time is:                      Wed Oct 19 14:42:53 2022 CEST
Firmware Updates (0x12):            1 Slot, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005d):     Comp DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x08):         Telmtry_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     84 Celsius
Critical Comp. Temp. Threshold:     89 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.80W       -        -    0  0  0  0        0       0
 1 +     7.10W       -        -    1  1  1  1        0       0
 2 +     5.20W       -        -    2  2  2  2        0       0
 3 -   0.0620W       -        -    3  3  3  3     2500    7500
 4 -   0.0620W       -        -    4  4  4  4     2500    7500

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         2
 1 -    4096       0         1

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        22 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    15,415 [7.89 GB]
Data Units Written:                 348,471 [178 GB]
Host Read Commands:                 706,784
Host Write Commands:                2,309,367
Controller Busy Time:               6
Power Cycles:                       20
Power On Hours:                     32
Unsafe Shutdowns:                   14
Media and Data Integrity Errors:    0
Error Information Log Entries:      21
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 2:               47 Celsius

Error Information (NVMe Log 0x01, 16 of 63 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         21     0  0x301d  0x4004      -            0     0     -
  1         20     0  0x101d  0x4004  0x028            0     0     -


Node             SN                   Model                                    Namespace Usage                      Format           FW Rev
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     50026B7686069248     KINGSTON SKC3000S1024G                   1           1.02  TB /   1.02  TB    512   B +  0 B   EIFK31.6
/dev/nvme1n1     50026B7685EFFF01     KINGSTON SKC3000S1024G                   1           1.02  TB /   1.02  TB    512   B +  0 B   EIFK31.6

Hier scheint es wohl Probleme zu geben ich kann aktuell aber nichts damit anfangen:
Bash:
root@proxmox:~# nvme error-log /dev/nvme0
Error Log Entries for device:nvme0 entries:63
.................
 Entry[ 0]
.................
error_count    : 22
sqid        : 0
cmdid        : 0x2001
status_field    : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc    : 0xffff
lba        : 0
nsid        : 0
vs        : 0
trtype        : The transport type is not indicated or the error is not transport related.
cs        : 0
trtype_spec_info: 0
.................


Im unraid Forum hat mal jemand erwähnt, dass diese angeblich nicht gut im Zusammenspiel mit Linux wären.

Vielleicht hat jemand noch ein paar Tipps für mich damit wir zur Lösung finden :)

Hier noch ein paar Grafiken:
3852a811-34c5-4a69-a182-758753f22999.jpg


Viele Grüße
Poet
 
Last edited:
Jetzt hat der ganze Server wieder neu gestartet. Im Proxmox Frontend krieg ich folgende Fehler angezeigt:

error - unable to read tail (got 0 bytes)

Es wurden die zwei laufenden VMs gestoppt und dann der Reboot eingeleitet:

Bildschirmfoto 2022-10-20 um 10.12.45.png
 
also bei spontanen reboots wo so gar nichts relevantes im log landet, ist erfahrungsgemäß oft die hardware das problem. ich würde mal mit memtest schauen ob der ram in Ordnung ist. falls ja, mal mit einem anderen Betriebssystem versuchen ob ähnliche Phänomene auftreten.