Hohe IO Verzögerung / IO Delay bei Kopiervorgängen & Upgrades

KarelPuhli

New Member
Jan 25, 2024
5
0
1
Guten Morgen!

Ich bin neu bei Proxmox unterwegs. Mein Setup:

Proxmox VE 8.1.4
auf Fujitsu Mini PC
16 GB Ram
500 GB interne SSD für das System selbst + local + local-lvm
Über USB angeschlossene externe SSD für subvolumes

Seit kurzem tritt das Problem auf, dass bei Datenverkehr auf der internen SSD die IO-Verzögerung auf teilweise 97 % hochgeht. Das System ist dann kaum noch nutzbar. Das Problem habe ich bei einem full-upgrade festgestellt und beim Kopiervorgang einer 15 GB großen ISO Datei nach dem Hochladen über die GUI. Ich habe dann probiert, die ISO Datei manuell per ssh auf proxmox zu schieben. Bis knapp 5 GB ging das auch gut, dann war die IO-Verzögerung weider bei 95 %. Der Kopiervorgang fror ein.

Wo könnte das Problem liegen???

Vielen Dank für Eure Hilfe!!!
 
Hi,

was für ein SSD-Modell hast du denn genau (intern) verbaut? Bitte mal die Ausgabe von smartctl -x /dev/<disk> posten.

When das eine billige Consumer-SSD (vielleicht noch mit QLC) ist, dann kann es sehr gut einfach an der liegen. (Einfach mal Forum suchen, zu dem Thema gibt es unzählige Posts ..)
 
Hi,

was für ein SSD-Modell hast du denn genau (intern) verbaut? Bitte mal die Ausgabe von smartctl -x /dev/<disk> posten.

When das eine billige Consumer-SSD (vielleicht noch mit QLC) ist, dann kann es sehr gut einfach an der liegen. (Einfach mal Forum suchen, zu dem Thema gibt es unzählige Posts ..)
Bash:
root@proxmox:~# smartctl -x /dev/sda
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.5.11-7-pve] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SSD 512GB
Serial Number:    441138300832
Firmware Version: W0306B0
User Capacity:    512,110,190,592 bytes [512 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available
Device is:        Not in smartctl database 7.3/5319
ATA Version is:   ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Jan 25 11:44:25 2024 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     254 (maximum performance)
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Unavailable

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  120) seconds.
Offline data collection
capabilities:                    (0x11) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0002) Does not save SMART data before
                                        entering power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  10) minutes.
SCT capabilities:              (0x0001) SCT Status supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     -O--CK   100   100   050    -    0
  5 Reallocated_Sector_Ct   -O--CK   100   100   050    -    6
  9 Power_On_Hours          -O--CK   100   100   050    -    4906
 12 Power_Cycle_Count       -O--CK   100   100   050    -    12
160 Unknown_Attribute       -O--CK   100   100   050    -    0
161 Unknown_Attribute       PO--CK   100   100   050    -    87
163 Unknown_Attribute       -O--CK   100   100   050    -    34
164 Unknown_Attribute       -O--CK   100   100   050    -    15956
165 Unknown_Attribute       -O--CK   100   100   050    -    30
166 Unknown_Attribute       -O--CK   100   100   050    -    2
167 Unknown_Attribute       -O--CK   100   100   050    -    22
168 Unknown_Attribute       -O--CK   100   100   050    -    3808
169 Unknown_Attribute       -O--CK   100   100   050    -    100
175 Program_Fail_Count_Chip -O--CK   100   100   050    -    0
176 Erase_Fail_Count_Chip   -O--CK   100   100   050    -    0
177 Wear_Leveling_Count     -O--CK   100   100   050    -    0
178 Used_Rsvd_Blk_Cnt_Chip  -O--CK   100   100   050    -    6
181 Program_Fail_Cnt_Total  -O--CK   100   100   050    -    0
182 Erase_Fail_Count_Total  -O--CK   100   100   050    -    0
192 Power-Off_Retract_Count -O--CK   100   100   050    -    8
194 Temperature_Celsius     -O---K   100   100   050    -    40
195 Hardware_ECC_Recovered  -O--CK   100   100   050    -    46242316
196 Reallocated_Event_Count -O--CK   100   100   050    -    0
197 Current_Pending_Sector  -O--CK   100   100   050    -    6
198 Offline_Uncorrectable   -O--CK   100   100   050    -    0
199 UDMA_CRC_Error_Count    -O--CK   100   100   050    -    150
232 Available_Reservd_Space -O--CK   100   100   050    -    87
241 Total_LBAs_Written      ----CK   100   100   050    -    25530
242 Total_LBAs_Read         ----CK   100   100   050    -    57434
245 Unknown_Attribute       -O--CK   100   100   050    -    109987
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O      1  Comprehensive SMART error log
0x03       GPL     R/O      1  Ext. Comprehensive SMART error log
0x04       GPL,SL  R/O      8  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters log
0x24       GPL     R/O     88  Current Device Internal Status Data log
0x25       GPL     R/O     32  Saved Device Internal Status Data log
0x30       GPL,SL  R/O      9  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log

SMART Extended Comprehensive Error Log Version: 1 (1 sectors)
Device Error Count: 150 (device log contains only the most recent 4 errors)
        CR     = Command Register
        FEATR  = Features Register
        COUNT  = Count (was: Sector Count) Register
        LBA_48 = Upper bytes of LBA High/Mid/Low Registers ]  ATA-8
        LH     = LBA High (was: Cylinder High) Register    ]   LBA
        LM     = LBA Mid (was: Cylinder Low) Register      ] Register
        LL     = LBA Low (was: Sector Number) Register     ]
        DV     = Device (was: Device/Head) Register
        DC     = Device Control Register
        ER     = Error register
        ST     = Status register
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 150 [1] log entry is empty
Error 149 [0] log entry is empty
Error 148 [3] log entry is empty
Error 147 [2] occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  04 -- 51 00 00 00 00 00 00 00 00 00 00  Error: ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 00 10 00 70 00 00 88 00 50 f0 00 00     00:00:00.000  WRITE FPDMA QUEUED
  61 00 40 00 78 00 00 ac 00 50 80 00 00     00:00:00.000  WRITE FPDMA QUEUED
  61 00 08 00 78 00 00 61 00 68 88 00 00     00:00:00.000  WRITE FPDMA QUEUED
  61 00 08 00 90 00 00 c7 00 bf 20 00 00     00:00:00.000  WRITE FPDMA QUEUED
  60 00 88 00 b8 00 00 5e 00 1e c0 00 00     00:00:00.000  READ FPDMA QUEUED

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

Selective Self-tests/Logging not supported

SCT Status Version:                  3
SCT Version (vendor specific):       0 (0x0000)
Device State:                        Active (0)
Current Temperature:                    40 Celsius
Power Cycle Min/Max Temperature:     40/40 Celsius
Lifetime    Min/Max Temperature:     21/40 Celsius
Specified Max Operating Temperature:   100 Celsius
Under/Over Temperature Limit Count:   0/0

SCT Data Table command not supported

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4              12  ---  Lifetime Power-On Resets
0x01  0x010  4            4906  ---  Power-on Hours
0x01  0x018  6      1673160262  ---  Logical Sectors Written
0x01  0x020  6        66643684  ---  Number of Write Commands
0x01  0x028  6      3764037022  ---  Logical Sectors Read
0x01  0x030  6        33377322  ---  Number of Read Commands
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1               0  ---  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

Pending Defects log (GP Log 0x0c) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  4          150  Command failed due to ICRC error
0x0002  4          150  R_ERR response for data FIS
0x0005  4            7  R_ERR response for non-data FIS
0x000a  4          168  Device-to-host register FISes sent due to a COMRESET

root@proxmox:~#
 
Hi,

Device Model: SSD 512GB
Weißt du denn genau, was du für ein Modell verbaut hast? Wie alt ist die SSD?
Die SSD selber liefert keine brauchbaren Informationen wie es ausschaut, also nehme ich an extrem billige Consumer-SSD.

Laut "Logical Sectors Written" wurde bisher erst <1TB geschrieben, aber wie gesagt: low-end SSDs gehen (besonders in Server-Settings wie hier!) sehr schnell kaputt.

KarelPuhli said:
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 3.0 Gb/s)
schaut auch seltsam aus - sollte grundsätzlich schon auch 6 Gb/s sein - aber eventuell auch nur eine Eigenheit von dem Mainboard. Heißt jedenfalls, das die vorhandene Geschwindigkeit nochmals reduziert ist.
 
Last edited:
Weißt du denn genau, was du für ein Modell verbaut hast? Wie alt ist die SSD?
Leider nein, ich müsste die Kiste aufschrauben. Es handelt sich um ein refurbished System. Das Teil habe ich für ca. 5 Monaten gekauft.

Ich bin eh gerade am überlegen, ob ich auf eine 1 TB SSD umrüste. Hättest du da eine Empfehlung?

Okay, dann schließe ich mal auf eine schlechte SSD.
 
Ich bin eh gerade am überlegen, ob ich auf eine 1 TB SSD umrüste. Hättest du da eine Empfehlung?
Grundsätzlich für den Einsatz in Servern bzw. mit Proxmox VE: alles mit PLP (power-loss protection). Kann man z.B. bei Geizhals als Filter auswählen.
Die sind grundsätzlich alle aus dem Enterprise-Segment und damit auch gemacht für Server-Einsätze. Natürlich auch ein klein wenig teurer, aber definitiv ihr Geld wert.
Wie gesagt, im Forum findet sich sehr viel zu dem Thema, falls du da mehr darüber lesen möchtest.

Beliebt sind hier bspw. die Samsung PM883, da kostet die 1TB-Variante derzeit knapp unter 100€.

Okay, dann schließe ich mal auf eine schlechte SSD.
Man könnte sich auch noch genau die io-pressure stats etc. anschauen, aber ja - auch meine Vermutung. Mittel- bis langfristig hättest du so oder so keine Freude mit der bzw. müsstest du sie sowieso tauschen.
 
  • Like
Reactions: KarelPuhli
Bei der Menge an CRC Fehlern sind da mindestens ein paar Zellen hinüber und der tolle sprechende Name sieht nach billigstem Schrott aus China aus.
Bevor du eine angebliche Pro Consumer SSD holst, die sind auch nicht wirklich besser, dann lieber eine gebrauchte Enterprise SSD.
 
  • Like
Reactions: KarelPuhli

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!