Ceph Recovery Performance

Falk R.

Distinguished Member
Aug 2, 2021
5,213
1,410
213
46
Damme, Germany
roesing.it
Hi, ich habe bei einem Kunden ein Cluster wo ein Node hinzu gefügt wurde. Da in dem Zuge des Umbaus ein Node gekillt wurde steht Ceph jetzt im Recovery und macht nur 300MB/s. Wenn wir jetzt einen Node offline nehmen geht die Performance direkt auf 1GB/s hoch. Sobald der Node wieder online kommt, sinkt der Recovery wieder auf 300MB/s.
Kennt jemand dieses Phänomen?
 
Kann einiges sein. Kommt auf die Verteilung der Daten an. Wie schaut ceph -s und ceph osd df tree aus?

Nehm an es hat sich bereits erledigt. ;)
 
Kann einiges sein. Kommt auf die Verteilung der Daten an. Wie schaut ceph -s und ceph osd df tree aus?

Nehm an es hat sich bereits erledigt. ;)
Hi, die Werte sind inzwischen anders, aber immer noch reproduzierbar. Ich habe die Prioritäten mal angepasst, damit er mit mehr Prio Rebalanced, aber hat keine Auswirkung. Letztens beim Patchen ging der Rebalance wieder hoch, solange ein Node offline ist.
Da letztens mal wieder ein Node dazu gekommen ist, dauert der Reblance derzeit laut Anzeige noch 2-3 Monate ;)
 
Hier hat der Vorgang das letze mal auch länger als sonst gedauert. Also hier ca. 1h. Im Gegensatz zur früheren Cephversion nur nur ein paar Minuten wenn überhaupt (960GB/Disk). Verwende hier Proxmox 8.1.3 und Ceph 18.2.0. mit 5 Nodes. Den folgenden Link habe ich noch nicht durch gearbeitet. Wäre aber einen Versuch Wert.

https://pve.proxmox.com/wiki/Ceph_mClock_Tuning
 
Hier hat der Vorgang das letze mal auch länger als sonst gedauert. Also hier ca. 1h. Im Gegensatz zur früheren Cephversion nur nur ein paar Minuten wenn überhaupt (960GB/Disk). Verwende hier Proxmox 8.1.3 und Ceph 18.2.0. mit 5 Nodes. Den folgenden Link habe ich noch nicht durch gearbeitet. Wäre aber einen Versuch Wert.

https://pve.proxmox.com/wiki/Ceph_mClock_Tuning
Danke für den Tipp