Probleme USB Festplatte / number of Error Log entries increased / uas_eh_abort_handle

peterwup

New Member
Jan 12, 2023
17
0
1
Hallo zusammen,

ich habe schon seit ein paar Wochen eine extrene Festplatte an einem USB3 Port.
Eine 1GB SSD.
Ein Teil davon ist via tkfileserver als samba share freigegeben, der Rest ungenutzt.

1679930899478.png
Die Platte ist recht neu, wurde bisher aber kaum genutzt.
Vorgestern habe ich auf ProxMox 7.4-3 geupdated.
Gestern Abend war die Platte dann plötzlich beim Versuche ein paar Daten darauf zu speichern weg.

Ich habe einiges unternommen aber leider keine Idee woher der Fehler kommt.
Ich habe heute nach einem Neustart gegen 15:25 den Storage wieder eingehangen und den container mit dem tkfileserver dann gestartet.

Im Syslog finde ich nun folgendes:

Code:
Mar 27 15:46:50 pve kernel: sd 2:0:0:0: [sdc] tag#13 uas_eh_abort_handler 0 uas-tag 2 inflight: CMD OUT
Mar 27 15:46:50 pve kernel: sd 2:0:0:0: [sdc] tag#13 CDB: Write(10) 2a 00 00 00 28 00 00 00 10 00
Mar 27 15:46:50 pve kernel: sd 2:0:0:0: [sdc] tag#12 uas_eh_abort_handler 0 uas-tag 1 inflight: CMD
Mar 27 15:46:50 pve kernel: sd 2:0:0:0: [sdc] tag#12 CDB: Write(10) 2a 00 32 00 28 10 00 00 20 00
Mar 27 15:46:50 pve kernel: scsi host2: uas_eh_device_reset_handler start
Mar 27 15:46:50 pve kernel: usb 4-2: reset SuperSpeed USB device number 2 using xhci_hcd
Mar 27 15:46:54 pve kernel: scsi host2: uas_eh_device_reset_handler success
Mar 27 15:46:54 pve zed[35749]: eid=6 class=delay pool='zfs_usb_sdc' vdev=sdc1 size=16384 offset=429500932096 priority=3 err=0 flags=0x40080c80 delay=34179ms
Mar 27 15:46:54 pve zed[35750]: eid=7 class=delay pool='zfs_usb_sdc' vdev=sdc1 size=8192 offset=4194304 priority=3 err=0 flags=0x40080c80 delay=34179ms
Mar 27 15:49:21 pve smartd[771]: Device: /dev/sdb [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 49 to 61
Mar 27 15:49:21 pve smartd[771]: Device: /dev/sdb [SAT], previous self-test completed without error
Mar 27 15:49:21 pve smartd[771]: Device: /dev/sdc [USB NVMe Realtek], number of Error Log entries increased from 286 to 287

Code:
Mar 27 16:56:22 pve kernel: sd 2:0:0:0: [sdc] tag#23 uas_eh_abort_handler 0 uas-tag 1 inflight: CMD OUT
Mar 27 16:56:22 pve kernel: sd 2:0:0:0: [sdc] tag#23 CDB: Write(10) 2a 00 50 00 28 10 00 00 08 00
Mar 27 16:56:22 pve kernel: sd 2:0:0:0: [sdc] tag#15 uas_eh_abort_handler 0 uas-tag 2 inflight: CMD
Mar 27 16:56:22 pve kernel: sd 2:0:0:0: [sdc] tag#15 CDB: Write(10) 2a 00 50 00 28 00 00 00 10 00
Mar 27 16:56:22 pve kernel: scsi host2: uas_eh_device_reset_handler start
Mar 27 16:56:22 pve kernel: usb 4-2: reset SuperSpeed USB device number 2 using xhci_hcd
Mar 27 16:56:25 pve kernel: scsi host2: uas_eh_device_reset_handler success


Code:
Mar 27 17:07:47 pve kernel: zio pool=zfs_usb_sdc vdev=/dev/sdc1 error=5 type=2 offset=678609035264 size=4096 flags=184880
Mar 27 17:07:47 pve kernel: sd 2:0:0:0: [sdc] tag#1 timing out command, waited 180s
Mar 27 17:07:47 pve kernel: sd 2:0:0:0: [sdc] tag#1 FAILED Result: hostbyte=DID_RESET driverbyte=DRIVER_OK cmd_age=268s
Mar 27 17:07:47 pve kernel: sd 2:0:0:0: [sdc] tag#1 CDB: Write(10) 2a 00 01 00 28 c0 00 00 18 00
Mar 27 17:07:47 pve kernel: blk_update_request: I/O error, dev sdc, sector 16787648 op 0x1:(WRITE) flags 0x700 phys_seg 3 prio class 0
Mar 27 17:07:47 pve kernel: zio pool=zfs_usb_sdc vdev=/dev/sdc1 error=5 type=2 offset=8594227200 size=12288 flags=40080c80
Mar 27 17:07:47 pve kernel: WARNING: Pool 'zfs_usb_sdc' has encountered an uncorrectable I/O failure and has been suspended.

Hat Jemand eine Idee was da schief laufen könnte ?

vielen Dank Peter
 
Vielleicht einfach eine defekte SSD? Mir macht hier ZFS auch immer die Consumer SSDs kaputt (alleine letztes Jahr 4 Stück) und irgendwann spucken die nur noch IO Fehler aus, ZFS meckert über zu viele Read/Write/Checksum Fehler oder die SSD wird einfach komplett nicht mehr erkannt.

Was du sonst mal testen könntest:
1.) langen SMART Selbsttest
2.) gucken ob da auffällige SMART-Werte sind
3.) Memtest86+ über Nacht laufen lassen um RAM Fehler auszuschließen
4.) gucken ob man eine neue Firmware auf die SSD flashen kann
5.) älteren Kernel testen
6.) mal anderen USB-Port/USB-Kabel testen
 
  • Like
Reactions: peterwup
Das Thema Smart sieht zumindeest anders aus als bei den anderen Platten, zeig aber keine Fehler.

Code:
smartctl -a  /dev/sdc
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       CT1000P3SSD8
Serial Number:                      2249E68FE30C
Firmware Version:                   P9CR30A
PCI Vendor/Subsystem ID:            0xc0a9
IEEE OUI Identifier:                0x00a075
Controller ID:                      1
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            6479a7 7030000085
Local Time is:                      Mon Mar 27 20:14:15 2023 CEST
Firmware Updates (0x12):            1 Slot, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005e):     Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x06):         Cmd_Eff_Lg Ext_Get_Lg
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     95 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.00W  0.0000W       -    0  0  0  0        0       0
 1 +     3.00W  0.0000W       -    0  0  0  0        0       0
 2 +     1.50W  0.0000W       -    0  0  0  0        0       0
 3 -   0.0250W  0.0000W       -    3  3  3  3     5000    1900
 4 -   0.0030W       -        -    4  4  4  4    13000  100000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         1
 1 -    4096       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        28 Celsius
Available Spare:                    100%
Available Spare Threshold:          5%
Percentage Used:                    0%
Data Units Read:                    885,217 [453 GB]
Data Units Written:                 1,361 [696 MB]
Host Read Commands:                 27,669,759
Host Write Commands:                63,707
Controller Busy Time:               75
Power Cycles:                       13,920
Power On Hours:                     980
Unsafe Shutdowns:                   10
Media and Data Integrity Errors:    0
Error Information Log Entries:      377
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               28 Celsius
Temperature Sensor 2:               32 Celsius
Temperature Sensor 8:               28 Celsius

Warning: NVMe Get Log truncated to 0x200 bytes, 0x200 bytes zero filled
Error Information (NVMe Log 0x01, 16 of 16 entries)
No Errors Logged

Ich hatte auch schon mit 2 verschiedenen USB Ports getestet. Jetzt versuche ich noch einen dritten der kein USB3 hat.
 
Last edited:
Was mir auffällt, die Disk hat bei nur ein paar GB genutzt, bereits 13920 Power Cycles. Kann es sein, dass der USB Port nicht sauber läuft und die Platte sich ständig neu verbindet?
Das ist eine ausgesprochen gute Idee. Evt. reicht die Leistung des USB Port nicht. Mal schauen wie ich das testen kann.
Vielen Dank erst mal.
 
Was mir auffällt, die Disk hat bei nur ein paar GB genutzt, bereits 13920 Power Cycles. Kann es sein, dass der USB Port nicht sauber läuft und die Platte sich ständig neu verbindet?

So, ein USB Hub mit Stromversorgung und mal ein paar GB Daten verschieben ..... und es funktioniert.
Vielen Dank.
Ich hatte die Power Cycles gesehen aber den falschen Schluss gezogen.

Vielen Dank nochmal an alle Hinweisgeber !

Gruß
Peter
 
Scheinbar war das nicht die Lösung. Nach ein paar Tagen wurde die Platte wieder wegen Fehlern rausgeworfen.
Ich habe mittlerweile auf ein eingebaute Sata Platte umgestellt und teste die USB Platte seit einigen Tagen mit Windows ohne Problem.
Irgendwie alles unbefriedigend aber es gibt jetzt ja eine laufende Lösung.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!