Hallo zusammen,
ich habe ein Ceph-Cluster mit 3 Nodes, das ca. 90 TB Rohkapazität bereitstellt und primär für CephFS genutzt wird.
Cluster-Setup:
Nach vollständigem Herunterfahren und erneutem Hochfahren waren alle OSDs wieder UP und CEPHFS war zugreifbar. Die HDDs von OSD3, OSD5 und OSD8 zeigen jetzt SMART-Fehler.
Ceph läuft zwar wieder, auf den ersten Blick scheint auch alles zu funktionieren, jedoch gibt es aktuell ein Objekt im Status „unfound“:
Ich habe bereits ein deep scrub sowie einen repair angestoßen, aber das Objekt bleibt verschwunden.
Im CephFS-Mount konnte ich die betreffende Datei ausfindig machen (es handelte sich um ein Logfile).
Jeder Zugriffsversuch auf das Logfile hat das System hängen lassen, aber am Ende habe ich es geschafft, die Datei zu löschen (genau weiß ich nicht wie das möglich war...). Der Status des betroffenen Placement Groups (PG) hat sich dadurch aber nicht verändert.
Ich schwanke zwischen verschiedenen Schritten und bin mir unsicher, was am klügsten ist:
ich habe ein Ceph-Cluster mit 3 Nodes, das ca. 90 TB Rohkapazität bereitstellt und primär für CephFS genutzt wird.
Cluster-Setup:
- Jede Node: 1x SSD (für Metadaten), 4x HDD
Nach vollständigem Herunterfahren und erneutem Hochfahren waren alle OSDs wieder UP und CEPHFS war zugreifbar. Die HDDs von OSD3, OSD5 und OSD8 zeigen jetzt SMART-Fehler.
Ceph läuft zwar wieder, auf den ersten Blick scheint auch alles zu funktionieren, jedoch gibt es aktuell ein Objekt im Status „unfound“:
Code:
HEALTH_ERR 1 MDSs report slow metadata IOs; 1/21467740 objects unfound (0.000%); Possible data damage: 1 pg recovery_unfound; Degraded data redundancy: 3/64403220 objects degraded (0.000%), 1 pg degraded, 1 pg undersized; 3 slow ops, oldest one blocked for 104752 sec, daemons [osd.3,osd.8] have slow ops.
PVE Ceph Dashboard:
active+recovery_unfound+undersized+degraded+remapped:
1
Ich habe bereits ein deep scrub sowie einen repair angestoßen, aber das Objekt bleibt verschwunden.
Im CephFS-Mount konnte ich die betreffende Datei ausfindig machen (es handelte sich um ein Logfile).
Code:
cephfs-data-scan pg_files / 12.80
und alle Dateien versucht zuzugreifen
Jeder Zugriffsversuch auf das Logfile hat das System hängen lassen, aber am Ende habe ich es geschafft, die Datei zu löschen (genau weiß ich nicht wie das möglich war...). Der Status des betroffenen Placement Groups (PG) hat sich dadurch aber nicht verändert.
Meine Fragen:
1. Wie gehe ich am besten weiter vor?Ich schwanke zwischen verschiedenen Schritten und bin mir unsicher, was am klügsten ist:
A) Wenn ich ceph pg 12.80 mark_unfound_lost revert ausführe:
- Wird hier nur das einzelne, unfound-Objekt "gelöscht", oder das komplette PG mit allen ~80k Dateien?
- Laut Doku bin ich mir hier nicht zu 100% sicher, was genau passiert. Das PG (12.80) enthält laut cephfs-data-scan pg_files / 12.80 etwa 80.000 Dateien.
B)Was ist der bessere Ablauf?
- Zuerst die (SMART Fehler) HDDs einzeln austauschen und rebalancen?
- Oder sollte ich zuerst versuchen, die defekten Objekte zu „entfernen“ (revert/delete), um Ceph wieder sauber zu bekommen?