Hallo zusammen,
ich habe gestern Proxmox installiert auf meiner neuen Hardware und mir ist schon zum 3. Mal der komplette Hypervisor abgeschmiert. Ich bin langsam echt am Verzweifeln, da ich in den Logs keine Anzeichen für einen Defekt, Kernel Panic oder sonst was sehe.
Der letzte Reboot war: 13:59 Uhr - damit man sich in den Logfiles orientieren kann
Ich sehe NVMe Meldungen wie:
Device: /dev/nvme0, number of Error Log entries increased from 18 to 20
und der nvmepool hat auch schon Fehler geworfen:
zfs-import@nvmepool.service: Main process exited, code=exited, status=1/FAILURE
Hier mal das dmesg Log:
https://gist.github.com/hardcore/4e3fab11b2f9fa56162f935628a9d518
Hier das ganze syslog:
https://gist.github.com/hardcore/b33920bcce39101c3709d33715218655
Ich habe mir folgende NVMes eingebaut: Kingston KC3000.
Hier scheint es wohl Probleme zu geben ich kann aktuell aber nichts damit anfangen:
Im unraid Forum hat mal jemand erwähnt, dass diese angeblich nicht gut im Zusammenspiel mit Linux wären.
Vielleicht hat jemand noch ein paar Tipps für mich damit wir zur Lösung finden
Hier noch ein paar Grafiken:
Viele Grüße
Poet
ich habe gestern Proxmox installiert auf meiner neuen Hardware und mir ist schon zum 3. Mal der komplette Hypervisor abgeschmiert. Ich bin langsam echt am Verzweifeln, da ich in den Logs keine Anzeichen für einen Defekt, Kernel Panic oder sonst was sehe.
Der letzte Reboot war: 13:59 Uhr - damit man sich in den Logfiles orientieren kann
Ich sehe NVMe Meldungen wie:
Device: /dev/nvme0, number of Error Log entries increased from 18 to 20
und der nvmepool hat auch schon Fehler geworfen:
zfs-import@nvmepool.service: Main process exited, code=exited, status=1/FAILURE
Hier mal das dmesg Log:
https://gist.github.com/hardcore/4e3fab11b2f9fa56162f935628a9d518
Hier das ganze syslog:
https://gist.github.com/hardcore/b33920bcce39101c3709d33715218655
Ich habe mir folgende NVMes eingebaut: Kingston KC3000.
Bash:
root@proxmox:~# smartctl -a /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.30-2-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: KINGSTON SKC3000S1024G
Serial Number: 50026B7686069248
Firmware Version: EIFK31.6
PCI Vendor/Subsystem ID: 0x2646
IEEE OUI Identifier: 0x0026b7
Total NVM Capacity: 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity: 0
Controller ID: 1
NVMe Version: 1.4
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 0026b7 6860692485
Local Time is: Wed Oct 19 14:41:46 2022 CEST
Firmware Updates (0x12): 1 Slot, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005d): Comp DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x08): Telmtry_Lg
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 84 Celsius
Critical Comp. Temp. Threshold: 89 Celsius
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 8.80W - - 0 0 0 0 0 0
1 + 7.10W - - 1 1 1 1 0 0
2 + 5.20W - - 2 2 2 2 0 0
3 - 0.0620W - - 3 3 3 3 2500 7500
4 - 0.0620W - - 4 4 4 4 2500 7500
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 2
1 - 4096 0 1
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 22 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 15,285 [7.82 GB]
Data Units Written: 348,449 [178 GB]
Host Read Commands: 699,273
Host Write Commands: 2,315,277
Controller Busy Time: 6
Power Cycles: 43
Power On Hours: 32
Unsafe Shutdowns: 36
Media and Data Integrity Errors: 0
Error Information Log Entries: 22
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 2: 51 Celsius
Error Information (NVMe Log 0x01, 16 of 63 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 22 0 0x2001 0x4004 - 0 0 -
1 21 0 0x1001 0x4004 0x028 0 0 -
root@proxmox:~# smartctl -a /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.30-2-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: KINGSTON SKC3000S1024G
Serial Number: 50026B7685EFFF01
Firmware Version: EIFK31.6
PCI Vendor/Subsystem ID: 0x2646
IEEE OUI Identifier: 0x0026b7
Total NVM Capacity: 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity: 0
Controller ID: 1
NVMe Version: 1.4
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 0026b7 685efff015
Local Time is: Wed Oct 19 14:42:53 2022 CEST
Firmware Updates (0x12): 1 Slot, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005d): Comp DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x08): Telmtry_Lg
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 84 Celsius
Critical Comp. Temp. Threshold: 89 Celsius
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 8.80W - - 0 0 0 0 0 0
1 + 7.10W - - 1 1 1 1 0 0
2 + 5.20W - - 2 2 2 2 0 0
3 - 0.0620W - - 3 3 3 3 2500 7500
4 - 0.0620W - - 4 4 4 4 2500 7500
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 2
1 - 4096 0 1
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 22 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 15,415 [7.89 GB]
Data Units Written: 348,471 [178 GB]
Host Read Commands: 706,784
Host Write Commands: 2,309,367
Controller Busy Time: 6
Power Cycles: 20
Power On Hours: 32
Unsafe Shutdowns: 14
Media and Data Integrity Errors: 0
Error Information Log Entries: 21
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 2: 47 Celsius
Error Information (NVMe Log 0x01, 16 of 63 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 21 0 0x301d 0x4004 - 0 0 -
1 20 0 0x101d 0x4004 0x028 0 0 -
Node SN Model Namespace Usage Format FW Rev
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 50026B7686069248 KINGSTON SKC3000S1024G 1 1.02 TB / 1.02 TB 512 B + 0 B EIFK31.6
/dev/nvme1n1 50026B7685EFFF01 KINGSTON SKC3000S1024G 1 1.02 TB / 1.02 TB 512 B + 0 B EIFK31.6
Hier scheint es wohl Probleme zu geben ich kann aktuell aber nichts damit anfangen:
Bash:
root@proxmox:~# nvme error-log /dev/nvme0
Error Log Entries for device:nvme0 entries:63
.................
Entry[ 0]
.................
error_count : 22
sqid : 0
cmdid : 0x2001
status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc : 0xffff
lba : 0
nsid : 0
vs : 0
trtype : The transport type is not indicated or the error is not transport related.
cs : 0
trtype_spec_info: 0
.................
Im unraid Forum hat mal jemand erwähnt, dass diese angeblich nicht gut im Zusammenspiel mit Linux wären.
Vielleicht hat jemand noch ein paar Tipps für mich damit wir zur Lösung finden
Hier noch ein paar Grafiken:
Viele Grüße
Poet
Last edited:
