S-ATA Problem führt zu ZFS Pool Degradation

Ste2play · Oct 13, 2021

Hallo,

ich habe in letzter Zeit häufiger folgende Probleme im Syslog stehen:

Code:

Oct 13 07:03:05 proxsrv kernel: ata2.00: exception Emask 0x0 SAct 0xc001bffe SErr 0x0 action 0x6 frozen
Oct 13 07:03:05 proxsrv kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct 13 07:03:05 proxsrv kernel: ata2.00: cmd 60/49:08:62:7b:26/00:00:07:00:00/40 tag 1 ncq dma 37376 in
         res 40/00:ff:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct 13 07:03:05 proxsrv kernel: ata2.00: status: { DRDY }
[ gekürzt ]
Oct 13 07:03:05 proxsrv kernel: ata2: hard resetting link
Oct 13 07:03:06 proxsrv kernel: ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Oct 13 07:03:06 proxsrv kernel: ata2.00: supports DRM functions and may not be fully accessible
Oct 13 07:03:06 proxsrv kernel: ata2.00: supports DRM functions and may not be fully accessible
Oct 13 07:03:06 proxsrv kernel: ata2.00: configured for UDMA/133
Oct 13 07:03:06 proxsrv kernel: sd 1:0:0:0: [sda] tag#1 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=35s
Oct 13 07:03:06 proxsrv kernel: sd 1:0:0:0: [sda] tag#1 Sense Key : Illegal Request [current]
Oct 13 07:03:06 proxsrv kernel: sd 1:0:0:0: [sda] tag#1 Add. Sense: Unaligned write command
Oct 13 07:03:06 proxsrv kernel: sd 1:0:0:0: [sda] tag#1 CDB: Read(10) 28 00 07 26 7b 62 00 00 49 00
Oct 13 07:03:06 proxsrv kernel: blk_update_request: I/O error, dev sda, sector 119962466 op 0x0:(READ) flags 0x700 phys_seg 7 prio class 0
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=1 offset=61419734016 size=37376 flags=40080c80
[ gekürzt ]
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=2 offset=334550809088 size=12288 flags=180880
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=1 offset=61419607552 size=126464 flags=40080c80
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=2 offset=378098773504 size=20480 flags=180880
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=2 offset=318852578816 size=20480 flags=180880
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=1 offset=61420285440 size=11776 flags=40080c80
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=1 offset=61419771392 size=126976 flags=40080c80
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=1 offset=61419898368 size=129024 flags=40080c80
Oct 13 07:03:06 proxsrv kernel: zio pool=local-zfs vdev=/dev/disk/by-id/ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 error=5 type=1 offset=61419476992 size=130560 flags=40080c80
Oct 13 07:03:06 proxsrv kernel: ata2: EH complete
Oct 13 07:03:06 proxsrv kernel: ata2.00: Enabling discard_zeroes_data
Oct 13 07:03:06 proxsrv zed[2456]: Missed 149 events
Oct 13 07:03:06 proxsrv zed[2047506]: eid=25 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=126976 offset=61419771392 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2456]: Missed 8 events
Oct 13 07:03:06 proxsrv zed[2047696]: eid=26 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=130560 offset=61419476992 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2047981]: eid=27 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=11776 offset=61420285440 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2048291]: eid=28 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=1024 offset=382528484352 priority=3 err=5 flags=0x180880 delay=35565ms bookmark=0:0:0:40
Oct 13 07:03:06 proxsrv zed[2048295]: eid=29 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=1024 offset=669375011328 priority=3 err=5 flags=0x180880 delay=35565ms bookmark=0:0:0:40
Oct 13 07:03:06 proxsrv zed[2048414]: eid=30 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=20480 offset=318852578816 priority=1 err=5 flags=0x180880 delay=30600ms bookmark=780:0:-2:50318
Oct 13 07:03:06 proxsrv zed[2048739]: eid=31 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=20480 offset=378098773504 priority=1 err=5 flags=0x180880 delay=33410ms bookmark=149:0:-2:78000
Oct 13 07:03:06 proxsrv zed[2048743]: eid=32 class=delay pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=129024 offset=61419898368 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2049007]: eid=33 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=126976 offset=61419771392 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2049106]: eid=34 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=130560 offset=61419476992 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2049347]: eid=35 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=11776 offset=61420285440 priority=0 err=5 flags=0x40080c80 delay=35565ms
Oct 13 07:03:06 proxsrv zed[2049351]: eid=36 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=1024 offset=382528484352 priority=3 err=5 flags=0x180880 delay=35565ms bookmark=0:0:0:40
Oct 13 07:03:06 proxsrv zed[2049606]: eid=37 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=1024 offset=669375011328 priority=3 err=5 flags=0x180880 delay=35565ms bookmark=0:0:0:40
Oct 13 07:03:06 proxsrv zed[2049634]: eid=38 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=20480 offset=318852578816 priority=1 err=5 flags=0x180880 delay=30600ms bookmark=780:0:-2:50318
Oct 13 07:03:07 proxsrv zed[2049638]: eid=39 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=20480 offset=378098773504 priority=1 err=5 flags=0x180880 delay=33410ms bookmark=149:0:-2:78000
Oct 13 07:03:07 proxsrv zed[2049867]: eid=40 class=io pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 size=129024 offset=61419898368 priority=0 err=5 flags=0x40080c80 delay=35565ms
[ gekürzt ]
Oct 13 07:03:09 proxsrv zed[2054878]: eid=79 class=checksum pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 algorithm=fletcher4 size=5120 offset=61419898368 priority=0 err=52 flags=0x380880 bookmark=1030:1:0:95489
Oct 13 07:03:09 proxsrv zed[2054903]: eid=80 class=checksum pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 algorithm=fletcher4 size=5120 offset=61420017152 priority=0 err=52 flags=0x380880 bookmark=1030:1:0:95512
Oct 13 07:03:09 proxsrv zed[2054930]: eid=81 class=statechange pool='local-zfs' vdev=ata-Samsung_SSD_860_EVO_1TB_S4X6NF0N125363V-part1 vdev_state=DEGRADED
Oct 13 07:03:09 proxsrv zed[2055297]: eid=82 class=config_sync pool='local-zfs'

Diese führen dann dazu, dass der ZFS Pool auf der SSD aufgrund von zu vielen Read/Write/Checksum Errors als DEGRADED markiert wird.
Da es nur eine einzelne SSD ist und auch die generelle Funktion nicht/kaum beeinträchtigt wird, reicht ein zpool clear local-zfs, um alles wieder ins Lot zu bringen.

Eine schnelle Google Suche für den ersten Fehler exception Emask 0x0 SAct 0xc001bffe SErr 0x0 action 0x6 frozen fördert Berichte über multipathd und open-iscsi zu Tage, obwohl ich kein iSCSI verwende.

Wie kann ich hier weiter nach der Ursache forschen? Ist jemandem dieser Fehler auch schonmal untergekommen?

Gruß + Danke
Stefan

fireon · Oct 14, 2021

Hallöchen auch,

da ich hier eine Samsung EVO sehe, vermute ich mal das sie verbraucht ist. Wir hatten ganz am Anfang mit ZFS mal Consumerdisks im Einsatz, auch EVO's. Die waren nach ca. 6 Monten auf Wearout 88%.

Bitte poste mal die Smartwerte von einer Disk.

Code:

smartctl -a /dev/deineEVO

Dunuin · Oct 15, 2021

Bei mir sieht es seit letzter Nacht bei einer TrueNAS SSD ähnlich aus. War aber eine Intel DC S3710 mit nur rund 5% wearout. Hatte da auch schon Strom und Datenkabel getauscht ohne Erfolg. Da ist wohl einfach die SSD hinüber. Hatte auch schon im TrueNAS Forum gefragt, aber da wusste auch keiner woran genau die Lese/Schreibfehler liegen könnten außer sterbende SSD. Nicht mal mehr SMART wollte sich auslesen lassen:

Code:

Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): READ(10). CDB: 28 00 00 40 00 a0 00 00 e0 00
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): CAM status: SCSI Status Error
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): SCSI status: Check Condition
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): SCSI sense: ILLEGAL REQUEST asc:21,0 (Logical block address out of range)
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): Info: 0
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): Error 22, Unretryable error
Oct 14 08:39:43 MainNAS GEOM_ELI: g_eli_read_done() failed (error=22) gptid/967d3c9d-f6ce-11ea-8b6d-6805ca1f5bda.eli[READ(offset=16384, length=114688)]
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): READ(10). CDB: 28 00 00 40 02 a0 00 00 e0 00
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): CAM status: SCSI Status Error
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): SCSI status: Check Condition
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): SCSI sense: ILLEGAL REQUEST asc:21,0 (Logical block address out of range)
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): Info: 0
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): Error 22, Unretryable error
Oct 14 08:39:43 MainNAS GEOM_ELI: g_eli_read_done() failed (error=22) gptid/967d3c9d-f6ce-11ea-8b6d-6805ca1f5bda.eli[READ(offset=278528, length=114688)]
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): READ(10). CDB: 28 00 2e 93 8c a0 00 00 e0 00
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): CAM status: SCSI Status Error
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): SCSI status: Check Condition
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): SCSI sense: ILLEGAL REQUEST asc:21,0 (Logical block address out of range)
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): Info: 0
Oct 14 08:39:43 MainNAS (da1:mps0:0:6:0): Error 22, Unretryable error

  pool: SSDpool2
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
        repaired.
  scan: scrub repaired 0B in 00:11:11 with 0 errors on Thu Oct 14 08:50:54 2021
config:

        NAME                                                STATE     READ WRITE CKSUM
        SSDpool2                                            DEGRADED     0     0     0
          raidz1-0                                          DEGRADED     0     0     0
            gptid/96651e4b-f6ce-11ea-8b6d-6805ca1f5bda.eli  ONLINE       0     0     0
            gptid/967d3c9d-f6ce-11ea-8b6d-6805ca1f5bda.eli  FAULTED      6   188     0  too many errors
            gptid/9678c860-f6ce-11ea-8b6d-6805ca1f5bda.eli  ONLINE       0     0     0

errors: No known data errors

root@MainNAS[~]# smartctl -a /dev/da1
smartctl 7.2 2020-12-30 r5155 [FreeBSD 12.2-RELEASE-p10 amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Intel 730 and DC S35x0/3610/3700 Series SSDs
Device Model:     INTEL SSDSC2BA400G4
Serial Number:    XXXXXXX
LU WWN Device Id: 5 5cd2e4 14db3ebfa
Firmware Version: G2010170
User Capacity:    400,088,457,216 bytes [400 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s
Local Time is:    Thu Oct 14 08:51:03 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
No failed Attributes found.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x00)         Offline data collection not supported.
SMART capabilities:            (0x0000) Automatic saving of SMART data                                  is not implemented.
Error logging capability:        (0x00) Error logging supported.
                                        General Purpose Logging supported.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

Read SMART Error Log failed: scsi error aborted command

Read SMART Self-test Log failed: scsi error aborted command

Selective Self-tests/Logging not supported

Ste2play · Oct 15, 2021

Hallo,

danke schonmal für die Antworten!

Hier die Ausgabe von smartctl -a /dev/sdb:

Code:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.11.22-5-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 860 EVO 1TB
Serial Number:    [geschwärzt]
LU WWN Device Id: 5 002538 e901062fe
Firmware Version: RVT04B6Q
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri Oct 15 16:54:22 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  85) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       11742
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       70
177 Wear_Leveling_Count     0x0013   084   084   000    Pre-fail  Always       -       275
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   051   038   000    Old_age   Always       -       49
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       40
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       65037939844

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       199         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Sieht für mich eigentlich relativ unauffällig aus. Wearout Level liegt bei 16%.

Gruß
Stefan

UdoB · Oct 16, 2021

Hallo,

ich habe zwar keine Hilfe, aber ähnliche Probleme: eine "Samsung Pro" mit nur 15 Prozent Verbrauch:

Code:

root@pved:~# smartctl  -i /dev/sda | grep "Device Model"; smartctl -a /dev/sda | grep Wear
Device Model:     Samsung SSD 860 PRO 1TB
177 Wear_Leveling_Count     0x0013   085   085   000    Pre-fail  Always       -       313

... in einem Mirror mit eine Seagate IronWolf. Die Samsung zeigt alle paar Tage so etwas:

Code:

        NAME                                                      STATE     READ WRITE CKSUM                                                                       
        ssd1                                                      DEGRADED     0     0     0
          mirror-0                                                DEGRADED     0     0     0
            ata-Samsung_SSD_860_PRO_1TB_S42NNX0R405142A           DEGRADED    13     0    66  too many errors
            ata-Seagate_IronWolfPro_ZA960NX10001-2ZH102_7TH0037F  ONLINE       0     0     0

Es genügt dann ein "zpool clear" um das zu kaschieren. Aber vermutlich liegt hier bei mir ein Hardware-Problem vor. Ich bin mir noch unsicher, wie ich diese bekämpfe...

Viele Grüße

Dunuin · Oct 16, 2021

Wenn du Checksum-Fehler hast, dann heißt das eigentlich, dass da deine Daten korrumpiert sind und nicht nur dass da die SSD Probleme beim Lesen/Schreiben hat. Da solltest du wirklich ein Scrub (zpool scrub ssd1) anwerfen und gucken ob die sich beheben lassen anstatt die kaputten Daten einfach nur mit zpool clear zu ignorieren.

UdoB · Oct 16, 2021

Danke für den Hinweis, das hatte ich tatsächlich lange nicht gemacht. (Aber immerhin läuft scrub einmal monatlich per cron.)

Code:

~# zpool  status ssd1
  pool: ssd1
 state: ONLINE
  scan: scrub repaired 0B in 00:16:40 with 0 errors on Sat Oct 16 16:14:54 2021

Dank ZFS-Mechanik keinerlei Fehler

ZFS rocks!

Aber auch ZFS kann nicht problemlos arbeiten, wenn die Hardware "Aussetzer" hat. Ich kann das noch nicht belegen, aber ich will "demnächst" mal Kabel und verwendeten Port austauschen.

Ste2play : Sorry, ich wollte diesen Thread nicht highjacken...

Viele Grüße

fireon · Oct 16, 2021

Ste2play said:

Hallo,

danke schonmal für die Antworten!

Hier die Ausgabe von smartctl -a /dev/sdb:

Code:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.11.22-5-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 860 EVO 1TB
Serial Number:    [geschwärzt]
LU WWN Device Id: 5 002538 e901062fe
Firmware Version: RVT04B6Q
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri Oct 15 16:54:22 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  85) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       11742
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       70
177 Wear_Leveling_Count     0x0013   084   084   000    Pre-fail  Always       -       275
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   051   038   000    Old_age   Always       -       49
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       40
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       65037939844

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       199         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Sieht für mich eigentlich relativ unauffällig aus. Wearout Level liegt bei 16%.

Gruß
Stefan

Danke für die Info. Und ja sieht mit dem Waroutlevel gut aus.

showiproute · Oct 17, 2021

Ich kann mich hier nur peripher mit meinem Input anschließen: Ich habe eine Zeit lang eine Samsung QVO im Server verbaut.
Habe ich die SSD nicht genutzt, gab es überhaupt keine Fehler/Probleme, aber als ich dann ein paar VM disks darauf geschoben habe, schrie mein ZFS auch ganz laut.

Dunuin · Oct 17, 2021

QLC SSDs wie die QVO sind auch suuuuper ungeeignet im Server. Wenn die normal im QLC-Modus arbeiten sind die ja langsamer als HDDs. Im Desktop-PC fällt das nur nicht so auf, weil man selten etwas drauf schreibt. Solange man da genug Platz auf der frei hat geht da alles flott, weil die SSD den ungenutzen Platz als SLC Cache benutzt. Dann ist die QVO nicht langsamer als eine normale MLC/TLC SSD. Aber wehe der SLC Cache geht mal voll bzw die SSD ist recht vollgeschrieben, dass da keine QLC-Zellen mehr im SLC Modus als Cache herhalten können, dann bricht die Schreibleistung übelst ein. Halt das gleiche Problem wie mit SMR HDDs.

showiproute · Oct 17, 2021

@Dunuin Daher habe ich die SSD auch wieder rasch aus dem Server entsorgt und durch zwei NAS-SSDs die für 24/7 ausgelegt sind (fraglich ob das somit richtige Server-SSDs wären).

Die QVO dient mir eigentlich nur noch als Cold Storage im Desktop.

Dunuin · Oct 17, 2021

Musst du mal gucken ob die eine Powerloss Protection haben. Das ist finde ich mit das Wichtigste an Server-SSDs, wobei natürlich eine hohe TBW ebenfalls wichtig ist, gerade wenn man ZFS, Verschlüsselung oder verschachtelte Dateisysteme nutzt, wo dann ja wegen der viel höheren Write Amplification die SSD-Abnutzung ja exponentiell ansteigt. Ansonsten sind noch Features wie z.B. SMART-Attribute die sich alle "online" aktualisieren ganz nett, das man auch SMART Warnungen bekommt wenn es wirklich Probleme gibt und nicht erst wenn man alle paar Monate mal wegen einem Update den Server neustarten muss.

showiproute · Oct 17, 2021

Dunuin said:
Musst du mal gucken ob die eine Powerloss Protection haben. Das ist finde ich mit das Wichtigste an Server-SSDs, wobei natürlich eine hohe TBW ebenfalls wichtig ist, gerade wenn man ZFS, Verschlüsselung oder verschachtelte Dateisysteme nutzt, wo dann ja wegen der viel höheren Write Amplification die SSD-Abnutzung ja exponentiell ansteigt. Ansonsten sind noch Features wie z.B. SMART-Attribute die sich alle "online" aktualisieren ganz nett, das man auch SMART Warnungen bekommt wenn es wirklich Probleme gibt und nicht erst wenn man alle paar Monate mal wegen einem Update den Server neustarten muss.

Also eine dezidierte Powerloss Protection steht jetzt nicht in den Unterlagen und finde ich auch sonst nirgend. Als eventuellen Dämpfer für Stromausfälle: Der Server selbst hängt an einer USV, die ihn geordnet herunterfährt.

TBWs sind bei der Platte allerdings recht hoch -> 1.3 PB.

Ich habe mir die Platte damals als Ersatz für 2.5 " HDDs gekauft, da die dortigen Non-SMR Platten teurer sind, als die SSDs.

Das einzige, dass mich immer stutzig macht ist, dass mir PVE in der GUI ein Wearout von 99 % anzeigt, obwohl die Platte eigentlich noch nicht so alt ist (~ 0,5 Jahr) und die Gigabyte Read/Written auch noch nicht arg hoch sind:

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
241 Host_Writes_GiB         0x0030   253   253   ---    Old_age   Offline      -       6019
242 Host_Reads_GiB          0x0030   253   253   ---    Old_age   Offline      -       33036

Dunuin · Oct 17, 2021

showiproute said:
Also eine dezidierte Powerloss Protection steht jetzt nicht in den Unterlagen und finde ich auch sonst nirgend. Als eventuellen Dämpfer für Stromausfälle: Der Server selbst hängt an einer USV, die ihn geordnet herunterfährt.

Die USV hilft aber leider nicht beim sterbenden (unredundanten) Netzteil oder wenn sonstige Hardware Probleme macht. Dann gehen dir immer noch die asynchronen gecachten Daten verloren. Und der andere Punkt ist, dass da für Sync Writes die Performance und Haltbarkeit viel geringer sein sollte, da ohne Powerloss Protection die SSD keine Sync Writes cachen darf, was dann bedeutet, dass da die SSD für Sync Writes keine Möglichkeiten besitzt die Schreibvorgänge zu optimieren.

showiproute · Oct 17, 2021

Dunuin said:
Die USV hilft aber leider nicht beim sterbenden (unredundanten) Netzteil oder wenn sonstige Hardware Probleme macht. Dann gehen dir immer noch die asynchronen gecachten Daten verloren. Und der andere Punkt ist, dass da für Sync Writes die Performance und Haltbarkeit viel geringer sein sollte, da ohne Powerloss Protection die SSD keine Sync Writes cachen darf, was dann bedeutet, dass da die SSD für Sync Writes keine Möglichkeiten besitzt die Schreibvorgänge zu optimieren.

Vollkommene Zustimmung: Wenn die Hardware Probleme verursacht, dann habe ich eventuell korrupte Daten.
Das mit den Sync-Writes war mir so nicht klar.

Ich werde mich mal nach Enterprise SSDs umsehen, die zumindest Powerloss Protection dabei haben - Geizhals kann hier das entsprechend filtern.

Wobei ich hier dazu sagen muss, dass meine Server so und so eher eine Mischung aus Enterprise und "Prosumer" Hardware ist.

CPUs: AMD Epyc bzw. Intel Xeon.
RAM: 128 GB ECC

Der eine Server hätte sogar eine Intel Enterprise SSD - der andere läuft mit irgendeiner Samsung Pro NVMe.

Ich fahre aber pro Tag zwei Backups, wodurch sich ein etwaiger Schaden in Grenzen hält.

Dunuin · Oct 17, 2021

Im Proxmox ZFS Benchmark 2020 sieht man sehr schön den Unterschied zwischen Enterprise und Consumer SSDs wenn es um Sync Writes geht:

Da sind dann enterprise SATA SSDs 100x schneller als eine HDD und die consumer SATA SSDs nur 2-3x so schnell.

showiproute · Oct 17, 2021

Ich möchte gar nicht in Abrede stellen, dass die Enterprise Platten (HDD oder SSD) "nur" teuer sind.

showiproute · Oct 17, 2021

Das Problem was ich eher habe/hatte: Als ich den Server konstruiert habe, hatte ich primär auf SATA/SAS Anschlüsse gesetzt, wobei der Trend ja eher zu NVMe Platten geht und dafür fehlen mir zZ die Anschlüsse/Laufwerksschächte

Dunuin · Oct 17, 2021

Ich möchte gar nicht in Abrede stellen, dass die Enterprise Platten (HDD oder SSD) "nur" teuer sind.

Wollte ich dir auch nicht vorwerfen. Aber ich lese hier so oft Threads wo Leute Win10 bare metal auf Consumer SSDs installieren, dann Tools wie CrystalDiskMark in Windows ausführen (die nur async Writes machen und eigentlich nur den RAM benchmarken anstatt der SSD) und sich danach wundern, warum sie in einer Windows VM, die auf einem ZFS Pool liegt, nur kaum mehr als HDD Performance hinbekommen, obwohl doch ja vorher einige GB/s angezeigt wurden. Meistens unterschätzen die Leute da ja total die Write Amplification und den ganzen Overhead von ZFS, verschachtelten Dateisystemen und natürlich Sync Writes.

Das Problem was ich eher habe/hatte: Als ich den Server konstruiert habe, hatte ich primär auf SATA/SAS Anschlüsse gesetzt, wobei der Trend ja eher zu NVMe Platten geht und dafür fehlen mir zZ die Anschlüsse/Laufwerksschächte

Ja, ich hab hier leider auch nur einen M.2 auf dem Mainboard. Ich habe hier zwar noch eine PCIe 3.0 8x auf 2x M.2 Karte aber die habe ich zusammen mit den M.2 Evos wieder ausgebaut, da die Evos kein Jahr überlebt hätten und gebrauchte Enterprise NVMe SSDs die für schreibintensive Workloads ausgelegt sind noch ziemlich unbezahlbar sind. Und inzwischen sind wegen all den NICs, GPUs, HBAs und Co eh keine PCIe Slots mehr frei, dass ich den M.2 Adapter noch irgendwo einbauen könnte. Für NVMes zahlt man da ja leider noch mindestens das doppelte bis dreifache.

Falk R. · Oct 17, 2021

Nur mal so als Suchtip: https://www.servershop24.de/en/hpe-1-6tb-6g-sata-ssd/a-123431/
Passt dank SATA auch in jeden Client und hat 3 DWPD.

S-ATA Problem führt zu ZFS Pool Degradation

Member

Distinguished Member

Distinguished Member

Member

Famous Member

Distinguished Member

Famous Member

Distinguished Member

Well-Known Member

Distinguished Member

Well-Known Member

Distinguished Member

Well-Known Member

Distinguished Member

Well-Known Member

Distinguished Member

Well-Known Member

Well-Known Member

Distinguished Member

Famous Member