beide Disks scheinbar defekt?

ClusterX · Jul 10, 2021

Ich habe heute ein Performance Problem festgestellt, die journalctl zeitgt IO errors (siehe unten).
Es ist auch seltsam das auf einmal beide disks davon betroffen sind, könnte es sich hier um ein Problem mit einem Controller oder Kabel handeln bzw. sonstiges Thermic etc? Bei einem check vor 3 Wochen waren beide Disks fehlerfrei ....
Derzeit läuft das System aber wie sollte ich nun vorgehen?

Partitionierung / Partition
PART /boot ext4 512M
PART lvm vg0 all
LV vg0 root / ext4 30G
LV vg0 swap swap swap 2G
LV vg0 data /var/lib/vz ext4 1800G
Proxmox wurde auf Raid1 aufgesetzt und enthält 2 KVM Systeme.

Im smart output wird angezeigt:
No Errors Logged
allerdings im short Test zeigen beide Disks auf einmal
Completed: read failure 50%/60%

cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sda1[0] sdb1[1]
523712 blocks super 1.2 [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]
1952857152 blocks super 1.2 [2/2] [UU]
bitmap: 8/15 pages [32KB], 65536KB chunk

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 50% 43683 1097467

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 60% 63186 945651

Code:

10 03:45:20 host00 kernel: blk_update_request: I/O error, dev sdb, sector 991437 op 0x0:(READ) flags 0x0 phys_seg 11 prio class 0
Jul 10 03:45:23 host00 kernel: ata2.00: exception Emask 0x0 SAct 0xffffffff SErr 0x0 action 0x0
Jul 10 03:45:23 host00 kernel: ata2.00: irq_stat 0x40000008
Jul 10 03:45:23 host00 kernel: ata2.00: failed command: READ FPDMA QUEUED
Jul 10 03:45:23 host00 kernel: ata2.00: cmd 60/80:70:20:40:0f/00:00:00:00:00/40 tag 14 ncq dma 65536 in
                                        res 41/40:00:40:40:0f/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Jul 10 03:45:23 host00 kernel: ata2.00: status: { DRDY ERR }
Jul 10 03:45:23 host00 kernel: ata2.00: error: { UNC }
Jul 10 03:45:23 host00 kernel: blk_update_request: I/O error, dev sdb, sector 999488 op 0x0:(READ) flags 0x0 phys_seg 12 prio class 0
Jul 10 03:45:25 host00 kernel: ata2.00: exception Emask 0x0 SAct 0xffffffff SErr 0x0 action 0x0
Jul 10 03:45:25 host00 kernel: ata2.00: irq_stat 0x40000008
Jul 10 03:45:25 host00 kernel: ata2.00: failed command: READ FPDMA QUEUED
Jul 10 03:45:25 host00 kernel: ata2.00: cmd 60/80:18:a0:4a:0f/00:00:00:00:00/40 tag 3 ncq dma 65536 in
                                        res 41/40:00:c3:4a:0f/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Jul 10 03:45:25 host00 kernel: ata2.00: status: { DRDY ERR }
Jul 10 03:45:25 host00 kernel: ata2.00: error: { UNC }
Jul 10 03:45:25 host00 kernel: blk_update_request: I/O error, dev sdb, sector 1002179 op 0x0:(READ) flags 0x0 phys_seg 7 prio class 0
Jul 10 03:45:27 host00 kernel: ata2.00: exception Emask 0x0 SAct 0x7ed8d SErr 0x0 action 0x0
Jul 10 03:45:27 host00 kernel: ata2.00: irq_stat 0x40000008
Jul 10 03:45:27 host00 kernel: ata2.00: failed command: READ FPDMA QUEUED
Jul 10 03:45:27 host00 kernel: ata2.00: cmd 60/80:40:a0:35:0f/00:00:00:00:00/40 tag 8 ncq dma 65536 in
                                        res 41/40:00:c4:35:0f/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Jul 10 03:45:27 host00 kernel: ata2.00: status: { DRDY ERR }
Jul 10 03:45:27 host00 kernel: ata2.00: error: { UNC }
Jul 10 03:45:27 host00 kernel: blk_update_request: I/O error, dev sdb, sector 996804 op 0x0:(READ) flags 0x0 phys_seg 7 prio class 0

Details:
https://pastebin.com/raw/7S9xQ8M0

ph0x · Jul 10, 2021

Ersetze die Disks zeitnah eine nach der anderen. Die sind nicht gleich kaputt aber ohne Testmöglichkeiten willst du sie wohl auch nicht mehr sehr lang nutzen.

ClusterX · Jul 10, 2021

im Panel wird unter SMART > passed angezeigt ...

vieleicht doch eher etwas mit dem Controller oder Kabel ... oder mal ein fsck laufen lassen?

ph0x · Jul 10, 2021

Ja, da wird auch weiterhin passed stehen, da kein Test mehr zu Ende läuft.
Du kannst das gern alles durchprobieren, aber am Ende wirst du feststellen, dass die Disks einen Schaden haben. Spaßeshalber einfach mal einen Test in einem anderen System probieren.
Mit fsck oder einem Beschreiben des speziellen Sektors kannst du Glück haben, ich gehe aber nicht davon aus.

ClusterX · Jul 10, 2021

hier handelt es sich ja um ein relativ "einfaches" Proxmox System was auf einem SF Raid1 aufgesetzt ist ...
kann ich hier genau wie bei einem Disk Austausch bei einem Dedi vorgehen, also Platte auswechseln und das Raid syncen
oder muss anschliessend noch etwas in der Proxmox config geändert werden?
Sorry für die Frage, aber auf PV habe ich das bisher noch nie gemacht

ph0x · Jul 10, 2021

Nö, das sollte genau so funktionieren.

ClusterX · Jul 10, 2021

Die Support Staff vom DC checkt gerade das System, möchte vorher ausschliessen das da nicht doch ein Controller oder Kabel die Ursache ist,
seltsamerweise sind ja gleich beide Disks betroffen ... mal schauen was dabei raus kommt, wäre nicht das erste Mal das ein SATA Kabel die Ursache ist ...
### edit ###
hier die Rückantwort

Code:

Anhand der mitgeschickten Logfiles sieht es aus, als wäre das ein Problem des Chipsatzes,
jedoch mussten wir laute Geräusche an Ihrem Server wahrnehmen, was darauf schließt,
dass die SATA-Kabel womöglich in Mitleidenschaft gezogen wurden.
Vorsorglich haben wir beide SATA-Kabel getauscht, sowie die Ports gewechselt.
Sollte das Problem weiterhin bestehen, so melden Sie sich bitte bei uns.

ph0x · Jul 10, 2021

Jo, testen schadet sicherlich nicht. Laute Geräusche durch SATA-Kabel ... Was machen die denn da?

ClusterX · Jul 10, 2021

ph0x said:
Jo, testen schadet sicherlich nicht. Laute Geräusche durch SATA-Kabel ... Was machen die denn da?

Ja gute Frage ;-) Ich gehe mal davon aus das nur Fans oder Netzteile laute Geräusche erzeugen können ...
im journal sieht jetzt alles sauber aus, allerdings ein neuer Selftest zeigt weiterhin

Code:

# 1  Short offline       Completed: read failure       50%     43685         1097467
# 1  Short offline       Completed: read failure       60%     63188         945651

ich lasse heute Nacht mal ein fsck durchlaufen, wenn das nichts ändert müssen die disks morgen wohl ausgetauscht werden.

ph0x · Jul 10, 2021

Ich hatte dasselbe Problem mit einer WD Red. Hab mit einer Anleitung genau diesen einen Sektor zigmal hintereinander beschrieben und wieder gelesen ohne jegliche Probleme. Nur der Selftest failte immer wieder an der Stelle.
Hab sie dann ausgetauscht, ist ja kein Zustand.

ClusterX · Jul 10, 2021

sdb ist schon mal ausgetauscht, der sync dauert ewig 2TB sata läuft seit 2 Stunden und ist nuh bei 13% ... SSD ist dagegen eine Rakete.
Die Austausch sdb ist eine relativ eine neue Platte 53 Tage gelaufen, keine Fehler.
Journal zeigt während dem sync allerdings 4 pending sectors auf sda hoffe das macht jetzt keine Probleme beim syncen
die sda (5 Jahre alt) wird morgen dann auch ausgetauscht.

Code:

Jul 10 20:30:39 host00 smartd[623]: Device: /dev/sda [SAT], 4 Currently unreadable (pending) sectors
Jul 10 21:00:39 host00 smartd[623]: Device: /dev/sda [SAT], 4 Currently unreadable (pending) sectors
Jul 10 21:30:39 host00 smartd[623]: Device: /dev/sda [SAT], 4 Currently unreadable (pending) sectors

Search

Search

beide Disks scheinbar defekt?

ClusterX

Member

ph0x

Renowned Member

ClusterX

Member

ph0x

Renowned Member

ClusterX

Member

ph0x

Renowned Member

ClusterX

Member

ph0x

Renowned Member

ClusterX

Member

ph0x

Renowned Member

ClusterX

Member

We value your privacy