Gerätepfad ändert sich während USB Festplatte eingebunden ist: I/O errors

h0a

Member
Sep 28, 2021
15
0
6
Hallo zusammen,

ich habe an einem ProxMox Server eine USB Festplatte angeschlossen, welche, während sie eingebunden ist, den Gerätepfad ändert z.b. von sdh1 zu sdi1. Dadurch schmeisst es I/O errors und ich kann die Daten nicht zuverlässig rsyncen.

Hier Details zu Festplatte:
Code:
=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA MQ04ABD200
Serial Number:    819NP5HWT
LU WWN Device Id: X XXXXXX XXXXXXXXX
Firmware Version: JT001U
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Zoned Device:     Device managed zones
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.3, 3.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Apr  9 14:57:42 2024 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Die Partition ist HFS+ formatiert (HFS Journaled):
Code:
Model: Intenso SCSI (scsi)
Disk /dev/sdi: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End     Size    Type     File system  Flags
 1      1049kB  2000GB  2000GB  primary  hfs+         boot

Ich binde diese ein mit der id:
mount -t hfsplus -o async,noowner /dev/disk/by-id/usb-Intenso_SCSI_XYZ-0\:0-part1 /mnt/hdd6

Anschließend, wegen Berechtigungen, erstelle ich einen bindmount:
bindfs -u $(id -u) -g $(id -g) /mnt/hdd6 /mnt/hdd6bind

Wenn ich von /mnt/hdd6 oder /mnt/hdd6bind rsynce, geht das ein paar Dateien lang gut und schmeisst irgendwann I/O errors:
rsync: [sender] read errors mapping "/mnt/hdd6bind/ORDNER/DATEI.MP4": Input/output error (5)

Anschließend schaue ich z.B. mit lsblk und sehe, dass sich der Gerätepfad ändert, immer einen Buchstaben "aufwärts".

Ich habe schon usb autosuspend in den kernel options auf -1 gestellt, weil ich die Vermutung hatte, dass die Festplatte vom Kernel in den Schlaf geschickt wird:
Code:
root@srv:/# cat /sys/module/usbcore/parameters/autosuspend
-1

dmesg bzw das messages log gibt mir diverse buffer_io_error: xyz callbacks supressed Meldungen:
Code:
Apr  9 15:05:27 srv kernel: [ 1337.433345] buffer_io_error: 5581 callbacks suppressed
Apr  9 15:05:32 srv kernel: [ 1342.436645] buffer_io_error: 5360 callbacks suppressed
Apr  9 15:05:37 srv kernel: [ 1347.441040] buffer_io_error: 5793 callbacks suppressed
Apr  9 15:05:42 srv kernel: [ 1352.445320] buffer_io_error: 6602 callbacks suppressed
Apr  9 15:05:47 srv kernel: [ 1357.448841] buffer_io_error: 7673 callbacks suppressed
Apr  9 15:05:52 srv kernel: [ 1362.453526] buffer_io_error: 7948 callbacks suppressed
Apr  9 15:05:57 srv kernel: [ 1367.457618] buffer_io_error: 7604 callbacks suppressed
Apr  9 15:06:02 srv kernel: [ 1372.461461] buffer_io_error: 7328 callbacks suppressed
Apr  9 15:06:07 srv kernel: [ 1377.466401] buffer_io_error: 6731 callbacks suppressed
Apr  9 15:06:12 srv kernel: [ 1382.469313] buffer_io_error: 5513 callbacks suppressed
Apr  9 15:06:17 srv kernel: [ 1387.473092] buffer_io_error: 7442 callbacks suppressed
Apr  9 15:06:22 srv kernel: [ 1392.477529] buffer_io_error: 8168 callbacks suppressed
Apr  9 15:06:27 srv kernel: [ 1397.483165] buffer_io_error: 6656 callbacks suppressed
Apr  9 15:06:32 srv kernel: [ 1402.485116] buffer_io_error: 5828 callbacks suppressed
Apr  9 15:06:37 srv kernel: [ 1407.490406] buffer_io_error: 6113 callbacks suppressed
Apr  9 15:06:42 srv kernel: [ 1412.493473] buffer_io_error: 6008 callbacks suppressed
Apr  9 15:06:47 srv kernel: [ 1417.497234] buffer_io_error: 5819 callbacks suppressed
Apr  9 15:06:52 srv kernel: [ 1422.501231] buffer_io_error: 5048 callbacks suppressed
Apr  9 15:06:57 srv kernel: [ 1427.507299] buffer_io_error: 5837 callbacks suppressed
Apr  9 15:07:02 srv kernel: [ 1432.512027] buffer_io_error: 5831 callbacks suppressed
Apr  9 15:07:07 srv kernel: [ 1437.514136] buffer_io_error: 5651 callbacks suppressed
Apr  9 15:07:12 srv kernel: [ 1442.518690] buffer_io_error: 5075 callbacks suppressed
Apr  9 15:07:17 srv kernel: [ 1447.521462] buffer_io_error: 6764 callbacks suppressed
Apr  9 15:07:22 srv kernel: [ 1452.527183] buffer_io_error: 5753 callbacks suppressed

Dahinter weitere Fehler:
Code:
...
Apr  9 15:07:07 srv kernel: [ 1437.514136] buffer_io_error: 5651 callbacks suppressed
Apr  9 15:07:12 srv kernel: [ 1442.518690] buffer_io_error: 5075 callbacks suppressed
Apr  9 15:07:17 srv kernel: [ 1447.521462] buffer_io_error: 6764 callbacks suppressed
Apr  9 15:07:22 srv kernel: [ 1452.527183] buffer_io_error: 5753 callbacks suppressed
Apr  9 15:14:48 srv kernel: [ 1898.447176] usb 2-5: USB disconnect, device number 14
Apr  9 15:14:48 srv kernel: [ 1898.527067] sd 6:0:0:0: [sde] Synchronizing SCSI cache
Apr  9 15:14:49 srv kernel: [ 1898.779056] sd 6:0:0:0: [sde] Synchronize Cache(10) failed: Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
Apr  9 15:14:49 srv kernel: [ 1899.079086] usb 2-5: new SuperSpeed USB device number 15 using xhci_hcd
Apr  9 15:14:49 srv kernel: [ 1899.100392] usb 2-5: New USB device found, idVendor=152d, idProduct=0578, bcdDevice= 2.09
Apr  9 15:14:49 srv kernel: [ 1899.100397] usb 2-5: New USB device strings: Mfr=1, Product=2, SerialNumber=3
Apr  9 15:14:49 srv kernel: [ 1899.100398] usb 2-5: Product: USB3.0 Device
Apr  9 15:14:49 srv kernel: [ 1899.100399] usb 2-5: Manufacturer: Intenso
Apr  9 15:14:49 srv kernel: [ 1899.100400] usb 2-5: SerialNumber: XYZ
Apr  9 15:14:49 srv kernel: [ 1899.105322] scsi host6: uas
Apr  9 15:14:49 srv kernel: [ 1899.105741] scsi 6:0:0:0: Direct-Access     Intenso  SCSI             0209 PQ: 0 ANSI: 6
Apr  9 15:14:49 srv kernel: [ 1899.107481] sd 6:0:0:0: Attached scsi generic sg4 type 0
Apr  9 15:14:49 srv kernel: [ 1899.107706] sd 6:0:0:0: [sde] 3907029168 512-byte logical blocks: (2.00 TB/1.82 TiB)
Apr  9 15:14:49 srv kernel: [ 1899.107709] sd 6:0:0:0: [sde] 4096-byte physical blocks
Apr  9 15:14:49 srv kernel: [ 1899.107893] sd 6:0:0:0: [sde] Write Protect is off
Apr  9 15:14:49 srv kernel: [ 1899.108185] sd 6:0:0:0: [sde] Disabling FUA
Apr  9 15:14:49 srv kernel: [ 1899.108187] sd 6:0:0:0: [sde] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Apr  9 15:14:49 srv kernel: [ 1899.108369] sd 6:0:0:0: [sde] Preferred minimum I/O size 4096 bytes
Apr  9 15:14:49 srv kernel: [ 1899.108370] sd 6:0:0:0: [sde] Optimal transfer size 33553920 bytes not a multiple of preferred minimum block size (4096 bytes)
Apr  9 15:14:49 srv kernel: [ 1899.402180]  sde: sde1
Apr  9 15:14:49 srv kernel: [ 1899.402357] sd 6:0:0:0: [sde] Attached SCSI disk

Ein SMART test ergibt nichts verdächtiges:
Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   050    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0027   100   100   001    Pre-fail  Always       -       2079
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       36
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   050    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       101
 10 Spin_Retry_Count        0x0033   100   100   030    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       18
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       4
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       96
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       33 (Min/Max 19/46)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   253   000    Old_age   Always       -       0
220 Disk_Shift              0x0002   100   100   000    Old_age   Always       -       4135
222 Loaded_Hours            0x0032   100   100   000    Old_age   Always       -       5
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
224 Load_Friction           0x0022   100   100   000    Old_age   Always       -       0
226 Load-in_Time            0x0026   100   100   000    Old_age   Always       -       185
240 Head_Flying_Hours       0x0001   100   100   001    Pre-fail  Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       101         -

Aktuell kann ich nicht zuverlässig Daten von der Platte rsyncen.

Da ich das unter Debian noch nicht hatte vermute ich, dass es mit ProxMox zu tun haben könnte?

Hat jemand eine Idee, was kann ich noch probieren?

Mir scheint es, als würde die Festplatte immer wieder neu initialisiert werden und erhält deshalb einen neuen Gerätepfad.

Danke!
 
Entweder kommt da ein anderes Hotplug/USB Gerät dazwischen oder der USB Controller spinnt.
Aber wieso nutzt du sda und co? Mounte doch besser mit der UUID.
 
Hallo @Falk R. ,
auch wenn ich mit der UUID mounte (ID und UUID sind i.d.R. nicht veränderlich):
mount -t hfsplus -o async,force,ro /dev/disk/by-uuid/1234abcd-ab12-1234-abcd-abcdef123456 /mnt/hdd6
... habe ich das gleiche Ergebnis. Soeben habe ich das auch nochmal probiert und ich konnte noch nicht mal rsync starten, so schnell hat das System wieder einen neuen Laufwerkbuchstaben zugewiesen. Mir scheint als würde das System irgendetwas mit der Platte machen.
Aber wie kann ich das ordentlich debuggen?
So einen Fall hatte ich noch nie.
In der Zeit, wo ich daran arbeite, hat niemand seine Finger am Server, es wird nichts bewegt usw.
 
Hat der USB Controller der Platte eventuell einen Schaden?
 
Oder versteht sich nicht mit dem uas-Treiber, den Linux verwenden will. Dazu müßte sich was im Forum finden lassen.
 
Hat der USB Controller der Platte eventuell einen Schaden?
Hm ... also einbinden und Daten kopieren funktioniert mit dieser Platte auf einem MacBook soweit problemlos. Habe aber keine größeren Datenmengen versucht zu schaufeln. Jedenfalls bleibt die Platte am Mac eingebunden und aktiv nutzbar.
Oder versteht sich nicht mit dem uas-Treiber, den Linux verwenden will. Dazu müßte sich was im Forum finden lassen.
Du meinst mit dem USB Treiber? GIbt es da massive Unterschiede?
 
Folgendes habe ich probiert:

UAS auf usb-storage Treiber umgestellt. Das hat zwar geklappt, hat aber nicht geholfen.

Dann den write cache genullt mit
hdparm -K0 -W0 /dev/disk/by-id/usb-Intenso_SCSI_XYZ-0\:0
Gab folgende Meldung:
Code:
  setting drive keep features to 0 (off)
SG_IO: bad/missing sense data, sb[]:  70 00 01 00 00 00 00 0a 00 00 00 00 00 1d 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
 setting drive write-caching to 0 (off)
SG_IO: bad/missing sense data, sb[]:  70 00 01 00 00 00 00 0a 00 00 00 00 00 1d 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
SG_IO: bad/missing sense data, sb[]:  70 00 01 00 00 00 00 0a 00 00 00 00 00 1d 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
SG_IO: bad/missing sense data, sb[]:  70 00 01 00 00 00 00 0a 00 00 00 00 00 1d 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
 write-caching =  0 (off)

Hat nich geholfen.

Schliesslich noch den SCSI cache type geändert auf write through, also read cache aber keinen write cache.
Mit echo "write through" > /sys/devices/pci0000:00/0000:00:14.0/usb2/2-5/2-5:1.0/host12/target12:0:0/12:0:0:0/scsi_disk/12:0:0:0/cache_type
Das hat dann den Fehler
Code:
sd 11:0:0:0: [sdj] Synchronize Cache(10) failed: Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
entfernt aus dem messages log.

Aber nach wie vor "reinitialisiert" sich die Platte immer wieder alle paar Sekunden. Es ist unmöglich das Ding mounted zu halten. Man muss gar nicht mal irgendwas versuchen irgendwas zu tun, einfach nur vor dem Protokoll sitzen und zuschauen ...
Wirklich sehr sehr merkwürdig, sowas hatte ich noch nie.

Ich werde jetzt dafür sorgen, dass die Daten an einem Mac auf eine andere Festplatte kopiert werden und die Platte entsorgen, das Problem also ganz pragmatisch angehen.

Hier der Auszug jetzt am Ende meiner Versuche. Das wiederholt sich alle paar Sekunden. Manchmal ändert sich dabei der device path, manchmal nicht.

Wilde Sache ...

Code:
Apr 13 13:11:13 srv kernel: [ 1932.826315] usb 2-5: USB disconnect, device number 62
Apr 13 13:11:13 srv kernel: [ 1933.198287] usb 2-5: new SuperSpeed USB device number 63 using xhci_hcd
Apr 13 13:11:13 srv kernel: [ 1933.218959] usb 2-5: New USB device found, idVendor=152d, idProduct=0578, bcdDevice= 2.09
Apr 13 13:11:13 srv kernel: [ 1933.218962] usb 2-5: New USB device strings: Mfr=1, Product=2, SerialNumber=3
Apr 13 13:11:13 srv kernel: [ 1933.218962] usb 2-5: Product: USB3.0 Device
Apr 13 13:11:13 srv kernel: [ 1933.218963] usb 2-5: Manufacturer: Intenso
Apr 13 13:11:13 srv kernel: [ 1933.218964] usb 2-5: SerialNumber: XYZ
Apr 13 13:11:13 srv kernel: [ 1933.220611] usb 2-5: UAS is ignored for this device, using usb-storage instead
Apr 13 13:11:13 srv kernel: [ 1933.220612] usb-storage 2-5:1.0: USB Mass Storage device detected
Apr 13 13:11:13 srv kernel: [ 1933.220654] usb-storage 2-5:1.0: Quirks match for vid 152d pid 0578: 1800000
Apr 13 13:11:13 srv kernel: [ 1933.220667] scsi host13: usb-storage 2-5:1.0
Apr 13 13:11:14 srv kernel: [ 1934.235056] scsi 13:0:0:0: Direct-Access     Intenso  SCSI             0209 PQ: 0 ANSI: 6
Apr 13 13:11:14 srv kernel: [ 1934.235233] sd 13:0:0:0: Attached scsi generic sg4 type 0
Apr 13 13:11:14 srv kernel: [ 1934.235680] sd 13:0:0:0: [sdl] 3907029168 512-byte logical blocks: (2.00 TB/1.82 TiB)
Apr 13 13:11:14 srv kernel: [ 1934.236109] sd 13:0:0:0: [sdl] Write Protect is off
Apr 13 13:11:14 srv kernel: [ 1934.236376] sd 13:0:0:0: [sdl] Disabling FUA
Apr 13 13:11:14 srv kernel: [ 1934.236377] sd 13:0:0:0: [sdl] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
Apr 13 13:11:14 srv kernel: [ 1934.237539]  sdl: sdl1
Apr 13 13:11:14 srv kernel: [ 1934.237610] sd 13:0:0:0: [sdl] Attached SCSI disk
 
Es gibt noch eine Neuigkeit:
Bei den Festplatten handelt es sich um:
Intenso MEMORY DRIVE
2TB
Art.-Nr. 6023580
https://www.intenso.de/produkte/festplatten/memory-drive

Ich habe eine zweite Platte, identisches Modell. Auch diese spinnt genauso rum. Es ist also zu vermuten, dass es kein Defekt ist, sondern diese Festplatten von Intenso nicht kompatibel mit Linux sind.
Und tatsächlich steht im Datenblatt nicht, dass sie mit Linux kompatibel sind!
https://www.intenso.de/sites/default/files/2023-02/hdd_extern_25_memory_drive.pdf
 
Es gibt noch eine Neuigkeit:
Bei den Festplatten handelt es sich um:
Intenso MEMORY DRIVE
2TB
Art.-Nr. 6023580
https://www.intenso.de/produkte/festplatten/memory-drive

Ich habe eine zweite Platte, identisches Modell. Auch diese spinnt genauso rum. Es ist also zu vermuten, dass es kein Defekt ist, sondern diese Festplatten von Intenso nicht kompatibel mit Linux sind.
Und tatsächlich steht im Datenblatt nicht, dass sie mit Linux kompatibel sind!
https://www.intenso.de/sites/default/files/2023-02/hdd_extern_25_memory_drive.pdf
Das steht oft nicht direkt dabei und es gibt keinen Grund warum nicht, aber die Intenso sind bekannt für Problemchen und schlechte Haltbarkeit.