Ceph PG repair failed

Ingo S

Renowned Member
Oct 16, 2016
348
42
93
41
Hallo zusammen

Scheinbar ist eine PG in unserem Ceph Storage defekt. Sie lässt sich auch nicht reparieren.
Die Logmeldung aus einem deep-scrub sieht wie folgt aus:

2024-09-17T16:12:44.448753+0200 osd.0 [ERR] 7.1aa soid 7:55a66cb1:::rbd_data.500bf7d81c73b3.000000000003a216:head : data_digest 0xf86c5ec9 != data_digest 0xb4476e6a from shard 0

Bedeutet, dass die Prüfsumme des shard0 von der erwarteten abweicht, oder wie darf ich das verstehen?
Was ist zu tun?
 
Da ist die Prüfsumme falsch auf osd.0, jetzt sollte Ceph die Daten eigentlich von einer anderen OSD holen. Bekommst du noch mehr Fehlermeldungen? Wenn eine PG tatsächlich defekt ist und alle Kopien fehlerhaft, bekommst du viel mehr Meldungen.
 
So, ich war die ganze Zeit über krank. Jetzt muss ich das nochmal von vorn aufrollen.
Ich brauche da mal einen kleinen Schubser: Wie zur Hölle bin ich an den o.a. Log Eintrag gekommen? Ich finde den nicht wieder :oops:

Zur Frage: Nein, dies war die einzige Meldung zu diesem Scrub. Mittlerweile haben sich noch mehr PG gemeldet, ebenfalls mit Scrub Fehler
 
Was sagen die SMART Werte? Liegen die PG zufällig auf einer gemeinsamen OSD?
 
SMART sagt, alles ist fein. Aaaaaber in den letzten Tagen sind noch mehr scrub Error aufgetreten und in ALLEN war OSD 14 beteiligt. Ein blick ins Kernel LOG zeigte folgendes:
Bash:
critical medium error, dev sdd, sector 49197368 op 0x0:(READ) flags 0x0 phys_seg 64 prio class 0
[905890.435728] sd 5:2:3:0: [sdd] tag#90 BRCM Debug mfi stat 0x2d, data len requested/completed 0x30000/0x0
[905890.435740] sd 5:2:3:0: [sdd] tag#90 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK cmd_age=0s
[905890.435743] sd 5:2:3:0: [sdd] tag#90 Sense Key : Medium Error [current]
[905890.435746] sd 5:2:3:0: [sdd] tag#90 Add. Sense: Unrecovered read error
[905890.435749] sd 5:2:3:0: [sdd] tag#90 CDB: Read(16) 88 00 00 00 00 00 00 e4 a6 f8 00 00 01 80 00 00

Autschn, da verabschiedet sich gerade eine HDD...
Theoretisch sollte unser Monitoring auf sowas anschlagen, aber scheinbar gibts da noch Optimierungsbedarf. :rolleyes:
Danke erstmal für den Wink
 
Last edited:
  • Like
Reactions: Falk R.

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!