LXC Passthrough NVMe ständig weg

Dommschwenker

Member
May 6, 2022
8
0
6
Germany
Hallo,

ich versuche in einem LXC meine zweite NVMe-Festplatte einzuhängen, damit dort Dateien "ausgelagert" werden können.
  • Die NVMe habe ich im NTFS-Format formatiert.
  • NTFS-3g habe ich in der PVE, als auch im LXC installiert.
  • Die NVMe habe ich mittels /etc/fstab gemountet
    /dev/nvme1n1p1 /mnt/nvme1 ntfs defaults,dmask=0000,fmask=0000 0 0
  • Und anschließend an den Container weitergereicht
    pct set 200 -mp0 /mnt/nvme1/,mp=/mnt/nvme1
Soweit funktioniert das Ganze auch.
Für mich etwas verwirrend ist, dass wenn ich mit die Rechte auf dem Container ansehe, dort Eigentümer "nobody" und "nogroup" sind und diese auch nicht mittels chown geändert werden können. Dennoch kann ich im Verzeichnis Dateien erstellen.

Mein Problem ist, dass wenn ich dort nun Dateien hin herunterlade, die Festplatte noch während des Downloads aussteigt und sowohl im LXC als auch in der PVE nicht mehr angezeigt und zugegriffen werden kann. Nach einem Neustart der PVE und des LXC ist die Platte wieder da. Der Download aber unvollständig.

Auf dem Login-Bildschirm der PVE wird etwas ausgegeben "blk_update_request: I/O Error, dev nvme1n1, sector 123456789 op 0x0:(READ) flags 0x80700 phys_seg 2 prio class 0 und noch etwas mit (WRITE) und Buffer I/O. Interpretiere ich jetzt einfachmal darauf, dass er die Festplatte nicht mehr findet.

PS: Ich hatte die Platte auch schon als EXT4 formatiert und dann per fstab gemountet, dann aber das Problem bekommen, dass ich gar nicht auf die Platte zugreifen konnte.

Hat jemand eine Idee / Lösung für mich?

Danke schon mal im Voraus.
 
Für mich stehen da nur Böhmische Dörfer :confused:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.35-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 970 EVO Plus 2TB
Serial Number: 1234567890ABCDEFG
Firmware Version: 2B2QEXM7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 2,000,398,934,016 [2.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 4
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 2,000,398,934,016 [2.00 TB]
Namespace 1 Utilization: 5,928,697,856 [5.92 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5911b15711
Local Time is: Fri May 20 15:23:33 2022 CEST
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x03): S/H_per_NS Cmd_Eff_Lg
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 85 Celsius
Critical Comp. Temp. Threshold: 85 Celsius

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 7.50W - - 0 0 0 0 0 0
1 + 5.90W - - 1 1 1 1 0 0
2 + 3.60W - - 2 2 2 2 0 0
3 - 0.0700W - - 3 3 3 3 210 1200
4 - 0.0050W - - 4 4 4 4 2000 8000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 38 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 4,126 [2.11 GB]
Data Units Written: 5,613 [2.87 GB]
Host Read Commands: 284,339
Host Write Commands: 19,455
Controller Busy Time: 0
Power Cycles: 122
Power On Hours: 10
Unsafe Shutdowns: 58
Media and Data Integrity Errors: 0
Error Information Log Entries: 288
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 38 Celsius
Temperature Sensor 2: 40 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 288 0 0x1015 0x4004 - 0 0 -
 
Hier mal der gleiche Auszug, nachdem sich die NVMe ausgehangen hat und die PVE neu gestartet wurde.

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.35-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 970 EVO Plus 2TB
Serial Number: 1234567890ABCDEFG
Firmware Version: 2B2QEXM7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 2,000,398,934,016 [2.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 4
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 2,000,398,934,016 [2.00 TB]
Namespace 1 Utilization: 6,607,302,656 [6.60 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5911b15711
Local Time is: Fri May 20 16:09:40 2022 CEST
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x03): S/H_per_NS Cmd_Eff_Lg
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 85 Celsius
Critical Comp. Temp. Threshold: 85 Celsius

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 7.50W - - 0 0 0 0 0 0
1 + 5.90W - - 1 1 1 1 0 0
2 + 3.60W - - 2 2 2 2 0 0
3 - 0.0700W - - 3 3 3 3 210 1200
4 - 0.0050W - - 4 4 4 4 2000 8000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 70 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 4,127 [2.11 GB]
Data Units Written: 5,613 [2.87 GB]
Host Read Commands: 284,341
Host Write Commands: 19,455
Controller Busy Time: 0
Power Cycles: 123
Power On Hours: 10
Unsafe Shutdowns: 59
Media and Data Integrity Errors: 0
Error Information Log Entries: 289
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 70 Celsius
Temperature Sensor 2: 75 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 289 0 0x1012 0x4004 - 0 0 -
 
Der ErrCount hat von 288 auf 289 hochgezählt, und die Temperatur ist massiv (von 38 auf 70) höher!

Eventuell ein Temperaturproblem?
 
Irgendetwas stimmt mit der NVMe anscheinend nicht. Ich habe jetzt mal versucht Proxmox direkt auf dieser zu installieren. Jedoch ist die Installation ständig gescheitert.
Danach habe ich kurzerhand beide verbauten Speichermedien formartiert und wollte Windows 11 auf der NVMe installieren. Hier hat die Installation ebenfalls nicht funktioniert. Im zweiten Versuch (ohne Neustart) wurde die NVMe dann auch nicht mehr erkannt und mir wurde nur noch die andere NVMe angezeigt. Daher habe ich dort Windows 11 installiert. Dies lief auch problemlos. Jetzt habe ich einfach mal versucht auf diese Festplatte Dateien herunterzuladen. Der Download funktioniert insoweit, jedoch kann nach Fertigstellung nicht mehr auf die Datei zugegriffen werden. Teilweise werden die Downloads auch nicht abgeschlossen.

Ich denke die NVMe hat einen weg ;) :( werde mich mal an den Hersteller wenden. Die NVMe wurde extra hierfür angeschafft und war bisher noch nicht im Einsatz.

Mal schauen, ob es danach läuft.