Dateien größer als 1,3 GB können nicht kopiert oder heruntergeladen werden (ZFS Mirror)

Zampalot

New Member
Dec 28, 2024
8
0
1
Hallo zusammen,

ich habe ein Problem mit meinem Proxmox-Server, das ich alleine nicht lösen kann. Der Server läuft mit einem ZFS-Mirror und hat 32 GB RAM. Vor kurzem wollte ich eine ISO-Datei herunterladen, aber der Download stoppte immer bei ca. 1,3 GB. Seitdem ist mir aufgefallen, dass ich generell keine Dateien, die größer als ca. 1,3 GB sind, auf die Hauptplatte kopieren kann.

Dabei ist es egal, ob ich:
  • per SSH Dateien hochlade,
  • etwas aus dem Internet direkt auf den Server herunterlade oder
  • Dateien von einer anderen Platte auf den Server kopiere.
Interessanterweise funktioniert das Kopieren von Daten vom Server problemlos.

Die fehlgeschlagenen Kopiervorgänge brechen nicht mit einem spezifischen Fehlercode ab, sondern scheinen sich aufzuhängen – als würde irgendwo ein Cache volllaufen. Ich habe alles Mögliche überprüft: Logs, Speicherplatz, RAM-Auslastung, etc. Es sind immer genügend Ressourcen verfügbar, und auch mit heruntergefahrenen VMs ändert sich nichts.

Ich selbst bin Fachinformatiker und habe das Problem gründlich analysiert, konnte aber keine Ursache finden. Auch zwei andere Fachinformatiker haben sich die Sache angesehen, aber wir konnten bislang keine Lösung finden.

Das Problem macht den Server fast unbrauchbar, da ich keine neuen VMs erstellen kann – die meisten benötigen Dateien, die größer als 1,3 GB sind.

Hat jemand von euch eine Idee, woran das liegen könnte oder wie ich weiter debuggen kann?

Vielen Dank im Voraus für eure Hilfe!
 
Mir ist das selbst schon passiert, aber nicht spezifisch bei 1,3GB. Bei mir kann es passieren wenn ich als Quellordner der ISOs von meinem NAS hochschiebe, ungefähr 100-200MB gecached laufen und dann erst die Platten vom spindown aufwachen. Passiert das nicht schnell genug, bricht es ab. Warte ich noch 10-20 Sekunden damit wirklich alle up sind, dann klappt es.

Sonstige Fallstricke dazu:
/tmp oder /var/tmp hat nicht genug Platz. Da fließen die Dateien erst hin, bevor sie dann ins passende Storage verschoben werden.
Ist irgendwo auf der Strecke (Router, Switch etc.) eine gesonderte MTU gesetzt? Default wäre MTU1500, in Sonderfällen hat man auch MTU9000. Das betreibt man aber wenn, dann überall gleich und wenn man es absichtlich hat, dann weiß man das auch. (Oder man hat es noch irgendwie von einer alten Spielerei vergessen?)
Hat ein beteiligtes Gerät auf der Strecke ECO/EEE/Stromsparfunktionen auf den NIC-Ports aktiviert? Bei Fritzboxen kann auch die 100MBit-Spardrossel (gleiche Kerbe wie Spar-irgendwas) auf den Ports solche Probleme bescheren.
 
Mir ist das selbst schon passiert, aber nicht spezifisch bei 1,3GB. Bei mir kann es passieren wenn ich als Quellordner der ISOs von meinem NAS hochschiebe, ungefähr 100-200MB gecached laufen und dann erst die Platten vom spindown aufwachen. Passiert das nicht schnell genug, bricht es ab. Warte ich noch 10-20 Sekunden damit wirklich alle up sind, dann klappt es.

Sonstige Fallstricke dazu:
/tmp oder /var/tmp hat nicht genug Platz. Da fließen die Dateien erst hin, bevor sie dann ins passende Storage verschoben werden.
Ist irgendwo auf der Strecke (Router, Switch etc.) eine gesonderte MTU gesetzt? Default wäre MTU1500, in Sonderfällen hat man auch MTU9000. Das betreibt man aber wenn, dann überall gleich und wenn man es absichtlich hat, dann weiß man das auch. (Oder man hat es noch irgendwie von einer alten Spielerei vergessen?)
Hat ein beteiligtes Gerät auf der Strecke ECO/EEE/Stromsparfunktionen auf den NIC-Ports aktiviert? Bei Fritzboxen kann auch die 100MBit-Spardrossel (gleiche Kerbe wie Spar-irgendwas) auf den Ports solche Probleme bescheren.

Bei den Festplatten handelt es sich um SSDs, also kann es nicht am Spindown liegen. Zudem ist, wie auf dem Bild zu sehen, genug Speicherplatz frei. Das habe ich während des Downloads auch bereits überprüft. Der Fehler tritt jedoch nicht nur beim Download auf: Selbst wenn ich Dateien auf der Platte selbst verschiebe (außerhalb des ISO-Speichers), hängt es sich dennoch auf. Auch wenn ich von einer anderen Festplatte auf diese verschiebe, passiert es. Ich habe das Ganze auch schon mal gut eine Stunde im Hintergrund laufen lassen, ohne dass sich etwas geändert hat.


1735423461855.png
 
Versuch mal das und gib output zurück - kontrolliere vorher, daß keine Datei /f0 und /largeStorage/f0 existiert (sonst anderen Namen nehmen):
dd if=/dev/urandom of=/f0 bs=1024k count=10240
und
dd if=/dev/urandom of=/largeStorage/f0 bs=1024k count=10240
 
Hat das jemals funktioniert oder ist das erst ab einer bestimmten PVE-Version so? War der letzte scrub von rpool ok? Hast du autotrim aktiviert und die SSDs mögen das nicht?

Magst du mal zum gemeinsamen Drüberschauen von allen SSDs die vollständigen Smartwerte (bitte in code-tags :)) posten?

smartctl -x -q noserial /dev/sd$ //noserial unterdrückt wie zu erraten die serial, es anonymisiert also direkt
 
Versuch mal das und gib output zurück - kontrolliere vorher, daß keine Datei /f0 und /largeStorage/f0 existiert (sonst anderen Namen nehmen):
dd if=/dev/urandom of=/f0 bs=1024k count=10240
und
dd if=/dev/urandom of=/largeStorage/f0 bs=1024k count=10240

Die ersten daten gingen schnell jedoch kam es dann schon ins stocken.
1735425937787.png
nach 3 min hat sich ein wenig getan.
1735425300230.png
Jedoch sollte es schneller gehen da es sich hierbei um eine SSD handelt. Einen SMART Test hat die Platte auch bestanden.
Es sieht bei der SSD also dem /f0 so aus als wenn er immer in kleinen abständen weiter schreibt aber dennoch extrem langsam.

Die HDD ist vor der SSD fertig geworden.
1735425364370.png

SSD ist auch endlich fertig geworden.
1735427008267.png


Mir ist zudem aufgefallen das die Totals steigen. Keine Ahnung ob das vielleicht relevant ist.
1735426187378.png
 
Totals bei ls sind egal. Die ssd ist inzwischen schon von mieser Qualität, aber zfs ist bei den 11G nicht ausgestiegen !!
Mach mal "cp /largeStorage/f0 /."
 
Hat das jemals funktioniert oder ist das erst ab einer bestimmten PVE-Version so? War der letzte scrub von rpool ok? Hast du autotrim aktiviert und die SSDs mögen das nicht?

Magst du mal zum gemeinsamen Drüberschauen von allen SSDs die vollständigen Smartwerte (bitte in code-tags :)) posten?

smartctl -x -q noserial /dev/sd$ //noserial unterdrückt wie zu erraten die serial, es anonymisiert also direkt
Das ganze ist spontan am 28.12 passiert. Ich hatte ein paar VMs umgestellt und neu erstellt und da ist es mir das 1. mal aufgefallen. davor ging alles immer einwandfrei. Auch ZFS meckert nicht.

WICHTIG!!: die werte der zweiten platte muss ich in einer eigenen Nachricht schreiben da ich sonst über die zulässigen Zeichen komme.

1735427907367.png

Code:
=== START OF INFORMATION SECTION ===
Device Model:     Patriot P220 512GB
Firmware Version: SN15926
User Capacity:    512,110,190,592 bytes [512 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        Not in smartctl database 7.3/5319
ATA Version is:   ACS-4 (minor revision not indicated)
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Dec 29 00:05:07 2024 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM feature is:   Unavailable
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (   33) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  85) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0031) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 20
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   PO--C-   100   100   010    -    0
  9 Power_On_Hours          -O--C-   100   100   000    -    1828
 12 Power_Cycle_Count       -O--C-   100   100   000    -    6
164 Unknown_Attribute       ------   100   100   000    -    94503829604
165 Unknown_Attribute       ------   100   100   000    -    222
166 Unknown_Attribute       ------   100   100   000    -    22
167 Unknown_Attribute       -O---K   100   100   000    -    100
194 Temperature_Celsius     -O---K   033   033   000    -    33 (Min/Max 25/35)
199 UDMA_CRC_Error_Count    -O--C-   100   100   000    -    0
241 Total_LBAs_Written      -O--CK   100   100   000    -    5183
242 Total_LBAs_Read         -O--CK   100   100   000    -    602
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O     51  Comprehensive SMART error log
0x03       GPL     R/O     64  Ext. Comprehensive SMART error log
0x04       GPL,SL  R/O      8  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters log
0x30       GPL,SL  R/O      9  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (64 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       1 (0x0001)
Device State:                        Active (0)
Current Temperature:                    33 Celsius
Power Cycle Min/Max Temperature:      ?/34 Celsius
Lifetime    Min/Max Temperature:      ?/ ? Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:     -127/127 Celsius
Min/Max Temperature Limit:           -127/127 Celsius
Temperature History Size (Index):    478 (35)

Index    Estimated Time   Temperature Celsius
  36    2024-12-28 16:08    33  **************
 ...    ..(  2 skipped).    ..  **************
  39    2024-12-28 16:11    33  **************

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4               6  ---  Lifetime Power-On Resets
0x01  0x010  4            1828  ---  Power-on Hours
0x01  0x018  6     10870013858  ---  Logical Sectors Written
0x01  0x020  6       240863669  ---  Number of Write Commands
0x01  0x028  6      1264006379  ---  Logical Sectors Read
0x01  0x030  6        18987811  ---  Number of Read Commands
0x01  0x038  6   1681600556240  ---  Date and Time TimeStamp
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1              29  N--  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

Pending Defects log (GP Log 0x0c) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            1  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x0008  2            0  Device-to-host non-data FIS retries
0x0009  4            0  Transition from drive PhyRdy to drive PhyNRdy
0x000a  4            8  Device-to-host register FISes sent due to a COMRESET
0x000f  2            0  R_ERR response for host-to-device data FIS, CRC
0x0010  2            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  2            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  2            0  R_ERR response for host-to-device non-data FIS, non-CRC



1735427998393.png
 
Das ganze ist spontan am 28.12 passiert. Ich hatte ein paar VMs umgestellt und neu erstellt und da ist es mir das 1. mal aufgefallen. davor ging alles immer einwandfrei. Auch ZFS meckert nicht.

WICHTIG!!: die werte der zweiten platte muss ich in einer eigenen Nachricht schreiben da ich sonst über die zulässigen Zeichen komme.

View attachment 79852

Code:
=== START OF INFORMATION SECTION ===
Device Model:     Patriot P220 512GB
0x0013  2            0  R_ERR response for host-to-device non-data FIS, non-CRC



View attachment 79853
Code:
=== START OF INFORMATION SECTION ===
Device Model:     Patriot P220 512GB
Firmware Version: HS14825
User Capacity:    512,110,190,592 bytes [512 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        Not in smartctl database 7.3/5319
ATA Version is:   ACS-4 (minor revision not indicated)
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Dec 29 00:13:25 2024 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM feature is:   Unavailable
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (   33) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  85) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0031) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 20
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   PO--C-   100   100   050    -    0
  9 Power_On_Hours          -O--C-   100   100   000    -    7487
 12 Power_Cycle_Count       -O--C-   100   100   000    -    18
167 Unknown_Attribute       -O---K   100   100   000    -    0
168 Unknown_Attribute       -O--C-   100   100   000    -    0
169 Unknown_Attribute       PO--C-   100   100   010    -    196614
170 Unknown_Attribute       PO--CK   100   100   010    -    100
171 Unknown_Attribute       -O--CK   100   100   000    -    0
172 Unknown_Attribute       -O--CK   100   100   000    -    0
174 Unknown_Attribute       -O---K   100   100   000    -    2
175 Program_Fail_Count_Chip -O---K   100   100   010    -    0
177 Wear_Leveling_Count     -O--C-   100   100   000    -    2594394201
180 Unused_Rsvd_Blk_Cnt_Tot PO--CK   100   100   000    -    57
183 Runtime_Bad_Block       PO--CK   100   100   000    -    0
184 End-to-End_Error        PO-RCK   100   100   090    -    0
192 Power-Off_Retract_Count -O--C-   100   100   000    -    8
194 Temperature_Celsius     -O---K   030   030   000    -    30 (Min/Max 25/37)
196 Reallocated_Event_Count -O--C-   100   100   000    -    0
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
206 Unknown_SSD_Attribute   -O--CK   200   200   000    -    48
207 Unknown_SSD_Attribute   -O--CK   200   200   000    -    451
208 Unknown_SSD_Attribute   -O--CK   200   200   000    -    268
231 Unknown_SSD_Attribute   PO---K   083   083   005    -    17
233 Media_Wearout_Indicator -O--CK   100   100   000    -    59115
234 Unknown_Attribute       -O--CK   100   100   000    -    26700389
241 Total_LBAs_Written      -O--CK   100   100   000    -    8794
242 Total_LBAs_Read         -O--CK   100   100   000    -    11404
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O     51  Comprehensive SMART error log
0x03       GPL     R/O     64  Ext. Comprehensive SMART error log
0x04       GPL,SL  R/O      8  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters log
0x30       GPL,SL  R/O      9  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (64 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       1 (0x0001)
Device State:                        Active (0)
Current Temperature:                    32 Celsius
Power Cycle Min/Max Temperature:      ?/34 Celsius
Lifetime    Min/Max Temperature:      ?/ ? Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:     -127/127 Celsius
Min/Max Temperature Limit:           -127/127 Celsius
Temperature History Size (Index):    478 (44)

Index    Estimated Time   Temperature Celsius
  45    2024-12-28 16:16    33  **************
  46    2024-12-28 16:17    32  *************

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4              18  ---  Lifetime Power-On Resets
0x01  0x010  4            7487  ---  Power-on Hours
0x01  0x018  6     18442525366  ---  Logical Sectors Written
0x01  0x020  6       390895971  ---  Number of Write Commands
0x01  0x028  6     23917479974  ---  Logical Sectors Read
0x01  0x030  6       256303225  ---  Number of Read Commands
0x01  0x038  6   6894588086404  ---  Date and Time TimeStamp
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1              60  N--  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

Pending Defects log (GP Log 0x0c) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            1  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x0008  2            0  Device-to-host non-data FIS retries
0x0009  4            0  Transition from drive PhyRdy to drive PhyNRdy
0x000a  4           11  Device-to-host register FISes sent due to a COMRESET
0x000f  2            0  R_ERR response for host-to-device data FIS, CRC
0x0010  2            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  2            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  2            0  R_ERR response for host-to-device non-data FIS, non-CRC
 
Totals bei ls sind egal. Die ssd ist inzwischen schon von mieser Qualität, aber zfs ist bei den 11G nicht ausgestiegen !!
Mach mal "cp /largeStorage/f0 /."
Ist nach der zahl wieder ins stocken gekommen:

1735429248610.png

es kupiert halt ab jetzt extrem langsam und immer nur in kurzen Schüben mit langen pausen weiter.
 
Tausch die ssd ! Aber kurios, daß du bei deinen bisherigen Schreibvorgängen (wie auch immer du die genau gemacht hast) lauter Abbrüche zu verzeichnen waren.
 
Tausch die ssd ! Aber kurios, daß du bei deinen bisherigen Schreibvorgängen (wie auch immer du die genau gemacht hast) lauter Abbrüche zu verzeichnen waren.

Woran hast du das jetzt genau erkannt? Bei mir zeigt die Oberfläche von Proxmox, dass ZFS und SMART okay sind. Ich würde den Fehler nur gerne besser nachvollziehen können, da ich selbst immer gerne etwas Neues lerne.
 
Einen echten I/O error gibt es hier zwar nicht, aber was will man mit einer ssd mit write 5,5 MB/s anfangen, wenn du anscheinend nicht mal isos dort ablegen kannst ?!?
 
Einen echten I/O error gibt es hier zwar nicht, aber was will man mit einer ssd mit write 5,5 MB/s anfangen, wenn du anscheinend nicht mal isos dort ablegen kannst ?!?
Das Ding ist, dass die SSD vorher deutlich schneller war – deutlich schneller. Zudem werden die Dateien immer nur in kurzen Intervallen übertragen, die jeweils dennoch schneller sind. Die Geschwindigkeit wurde bei dem Test ja nur im Durchschnitt gemessen, soweit ich das sehe. Daher wäre es unsinnig, eine SSD auszutauschen, wenn kein direkter Hardwarefehler angezeigt wird und es auch ein Softwarefehler sein könnte.
 
Auch könnte man mal nachschauen auf dem Flashspeicher, ob da regelmäßig ein Trim läuft:
zpool get autotrim <pool-name>
df -hi <mount-point>
 
Last edited:
WICHTIG!!: die werte der zweiten platte muss ich in einer eigenen Nachricht schreiben da ich sonst über die zulässigen Zeichen komme.
Kein Problem und stimmt ja, das ist etwas an Text. Eine Textdatei als Anhang geht natürlich auch. Fürs nächste Mal dann ;)

Ich komme auch zu dem Schluss, dass du wirklich die SSDs tauschen solltest und gebe dir auch noch eine andere Begründung.

Die erste hat eine Laufzeit von nur 1828 Power_On_Hours Stunden, das ist quasi nichts. Jedoch zeigt diese bereits eine Percentage Used Endurancevon 29. Bei der zweiten ist das noch viel schlimmer, die hat zwar ein paar Stunden mehr, aber auch noch kein hohes Laufalter von 7487 Stunden und schon zu 60% durchgeschrieben.
Wenn man bewusst darauf viel geschrieben hat und sich preisbewusst bei Anschaffung im Klaren war, dass diese Consumer-SSDs schnell durchgeschrieben sein werden, dann ist das realistisch.
Jetzt kommen auch noch unerklärliche Fehler dazu und SMART sagt trotzdem "passed".
Es ist zwar das gleiche Modell, allerdings unterschiedliche Firmwarestände (SN15926, HS14825), die eine davon hat sogar mehr/andere Attribute angezeigt. Allein das ist kein Problem, aber schließt auch nicht wirklich Firmwarebugs aus.
Die Sache ist die...wenn die Firmware von SSDs verbuggt ist, kann man das auch oft daran merken, wenn autotrim auf dem rpool zwar aktiviert ist, die SSDs es aber nicht korrekt durchführen und hängen -> das gibt dann auch kuriose Fehler bis Abstürze.
Andersrum ist es so, dass wenn man autotrim nicht aktivert hat, weil die Firmware damit eh nicht klarkommt, dann schreibt man die Zellen noch viel schneller durch und das ist, was ich da aktuell bei dir vermute, gerade weil du ja sagtest, dass sie zu Beginn schneller waren.

So ungerne ich das sage, aber ich will ja helfen: die SSDs sind von zu unterirdischer Qualität, als dass du damit noch glücklich werden könntest.
Du musst sie ja nicht direkt wegwerfen, einzeln in einem Win-Laptop laufen die oft noch lange zufriedenstellend und brutzeln nicht so schnell die Endurance durch, aber für Proxmox sind die von keinem Standpunkt aus betrachtet eine gute Idee.
Ich habe jetzt natürlich keinen handfesten Beweis für dich, kann nur mit etwas Erfahrung dienen. Vielleicht aber bringt es was, wenn du eine davon in einen Festrechner oder Laptop umbaust und darauf mal eine Windows-Testinstallation fährst. Wenn das ablahmt, hast du deinen Beweis. ;)
Wenn Proxmox mit anderen SSDs wieder flott rennt und ISOs erfolgreich geuppt werden auch.
 
Last edited:

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!