CEPH HEALTH_WARN nach Update auf PVE 9.1

p.jahn

Active Member
Feb 19, 2019
29
4
43
44
Hallo zusammen,

ich habe am Wochenende unseren PVE Cluster von PVE 8.4 auf 9.1 aktualisiert.
CEPH war bereits vorher auf Squid und wurde von 19.2.1 auf 19.2.3 aktualisiert.
Das Update verlief problemlos, jedoch meldet CEPH seither die folgende Warnung.

Code:
[WRN] BLUESTORE_FREE_FRAGMENTATION: 11 OSD(s)
     osd.1 0.803973
     osd.4 0.878582
     osd.5 0.807504
     osd.15 0.808278
     osd.17 0.805276
     osd.19 0.815188
     osd.24 0.807225
     osd.27 0.842825
     osd.32 0.845424
     osd.37 0.810466
     osd.39 0.807901

Laut den Release Notes [0] wurde diese Warnung in 19.2.3 neu hinzugefügt und in der Dokumentation [1] ist beschrieben, dass eine Fragmentierung ab 0.9 kritisch ist.
In der offiziellen Dokumentation konnte ich jedoch keine Abhilfe finden.
Lediglich hier [2] auf GitHub wurde geschrieben, dass man wohl die betroffenen OSDs neu erstellen muss.

Ist das Problem eventuell jemanden hier schon bekannt?

Vielen Dank für eine Rückmeldung.

Viele Grüße
Patrick


[0] https://ceph.io/en/news/blog/2025/v19-2-3-squid-released/
[1] https://docs.ceph.com/en/latest/rados/operations/health-checks/#bluestore-fragmentation
[2] https://github.com/rook/rook/issues/16858
 
Ggf. könntest Du noch die Gewichtung der OSD manuell in der crushmap auf 0 herunterschrauben, dann werden die Daten auf andere OSDs verteilt und gibst der OSD folgend wieder eine normale Gewichtung um die ursprüngliche Verteilung wiederherzustellen.
 
Ich habe das gleiche Symptom unter Proxmox 8.4.16 und CEPH 19.2.3.
Der Proxmox Support hat mir dazu geantwortet, dass das eben unvermeidlich (siehe CEPH Doku) und ein Wert unter .9 unproblematisch sei, solange keine Performance Probleme auftreten (z.B. CEPH Bluestore_Slow_Operation Warnings). Das ist bei mir nicht der Fall.

Als Lösung wurde vorgeschlagen, die betroffenen OSDs nach und nach neu zu erstellen [0] [1]. Dazwischen immer warten, bis das rebalancing abgeschlossen ist.

Allerdings haben sie mir erst dazu geraten, sobald die Fragmentierungsrate .9 überschreitet oder bereits vorher Performance-Probleme auftreten.
Die Warnung kann man ansonsten muten, wenn sie stört (z.B. über ceph health mute BLUESTORE_FREE_FRAGMENTATION 48h).
Allerdings taucht sie bei mir dann immer noch im Icinga2-Monitoring auf, aber das ist ja ein anderes Problem.

[0] https://pve.proxmox.com/pve-docs/chapter-pveceph.html#pve_ceph_osd_destroy
[1] https://pve.proxmox.com/pve-docs/chapter-pveceph.html#pve_ceph_osd_create
 
  • Like
Reactions: Johannes S
Vielen Dank für die Rückmeldung.

D.h. ich benutze ceph osd crush reweight osd.1 0 und nach dem Rebalance wieder den ursprünglichen Wert?
Korrekt, so würde ich es einmal probieren. Wobei ich nicht glaube, dass das schneller ist als die Platte raus/rein zu nehmen. Ist leider so. Bei SSDs ist Fragmentierung zum Glück nicht so wild.