CEPH wird langsam

Dec 14, 2018
22
1
23
58
Folgende Konfiguration:
4 Nodes (je 2 Sockets à 10 Kerne mit HT, 192GB RAM, 240GB SSD HW-RAID1 für pve, 3x NVMe SSD für CEPH)

CEPH-Cluster.png

Problem: Nach einiger Zeit (30-40 Tage) sinkt die Performance von CEPH!
Standard: Max bandwidth 1660, Min bandwidth 1540
Der Durchsatz fällt in 5 Wochen auf ca. Max 150 Min 140!!! Nach einem Neustart der 4 Server ist das System wieder schnell!
(Performance steigt mit jedem neugestarteten Node)

Woran kann das liegen? Irgendwelche "Schrauben" an Caches, die man drehen kann?

1000 Dank
Rainer
 
Diese Settings hab ich rausgefischt:

root@pveceph01:~# for f in /var/run/ceph/ceph-osd.*.asok; do ceph --admin-daemon $f config show; done | grep 'debug_ms\|osd_deep_scrub_interval\|osd_scrub_begin_hour\|osd_scrub_end_hour\|osd_scrub_sleep'
"debug_ms": "0/5",
"osd_deep_scrub_interval": "604800.000000",
"osd_scrub_begin_hour": "0",
"osd_scrub_end_hour": "24",
"osd_scrub_sleep": "0.000000",
"debug_ms": "0/5",
"osd_deep_scrub_interval": "604800.000000",
"osd_scrub_begin_hour": "0",
"osd_scrub_end_hour": "24",
"osd_scrub_sleep": "0.000000",
"debug_ms": "0/5",
"osd_deep_scrub_interval": "604800.000000",
"osd_scrub_begin_hour": "0",
"osd_scrub_end_hour": "24",
"osd_scrub_sleep": "0.000000",
root@pveceph01:~#

Vielleicht würde helfen, den Zeitraum in die Nacht zu verlegen...

Wie kann ich mir den laufenden scrub anzeigen lassen? Oder checken, ob einer läuft?

Wir haben einige weitere CEPH-Cluster am Laufen (3-Nodes) und da tritt dieses Problem nicht auf...?
 
Moin,
sollte das nicht unter: http://<ip.von.einem.proxmox>:7000
angezeigt werden.
ceph.png

Salve.
 
Standard: Max bandwidth 1660, Min bandwidth 1540
Der Durchsatz fällt in 5 Wochen auf ca. Max 150 Min 140!!! Nach einem Neustart der 4 Server ist das System wieder schnell!
(Performance steigt mit jedem neugestarteten Node)
Das hört sich doch schon seltsam an, das die Performance auf ein Zehntel einbricht. Was für NVMe SSDs sind den Verbaut?

Mittel ein paar Einzeilern [0] lässt sich leicht herausfinden, an welchem Tag und zu welcher Uhrzeit ein Scrub einer PG stattgefunden hat. Aber das sollte bei NVMe SSDs keinen großen Einbrauch herbeiführen und auch nicht dauerhaft.

"osd_deep_scrub_interval": "604800.000000",
Das Interval ist einmal pro Woche pro PG. Die PGs haben alle ein separates Alter, ist dieses grösser als der Interval, dann wird die PG ge-scrubbed.

sollte das nicht unter: http://<ip.von.einem.proxmox>:7000
Proxmox VE besitzt sein eigenes Dashboard, daher ist das Ceph Dashboard von Haus aus nicht installiert. Der Status sollte aber auch im Proxmox VE Dashboard zu sehen sein.

[0] https://ceph.io/geen-categorie/deep-scrub-distribution/
 
Das hört sich doch schon seltsam an, das die Performance auf ein Zehntel einbricht. Was für NVMe SSDs sind den Verbaut?

Das ist wahrlich dubios!! Verbaut sind 3 x SSD 2.5" Intel DC P4500 Ser. 4.0TB (PCIe/NVMe)

Bin ja auch nicht sicher, dass es an der Scrubberei liegt...
Wir haben einige dieser Installationen (halt 3-Nodes) wo genanntes Problem nicht auftritt!
An sich bin ich mit PVE ausserordentlich zufrieden! Alles gleitet klappt und rollt.... :cool:

Den einzigen Hinweis liefert die Tatsache (hab ich auch herausgefunden) dass ein Abschalten des Swap (swapoff -a) temporär Beschleunigung bringt! Allerdings hat uns die Seuche nach der Zeitspanne trotzdem wieder eingeholt!
 
Den einzigen Hinweis liefert die Tatsache (hab ich auch herausgefunden) dass ein Abschalten des Swap (swapoff -a) temporär Beschleunigung bringt! Allerdings hat uns die Seuche nach der Zeitspanne trotzdem wieder eingeholt!
Wie ist die RAM Auslastung in den 5 Wochen? Hohe IO zu sehen?
 
RAM Auslastung gemäß den laufenden VMs... Nichts ungewöhnliches!
IO gering - w/a unter 1%...
Na ich mein, gesamt gesehen über den Zeitraum vom Neustart zum langsamen. Ist da etwas zu erkennen, stetig anwachsender RAM oder IO Spitzen?
 
Nur der Swap - so eingeschaltet - steigt ohne ersichtlichen Grund!
Der Kernel schiebt Daten in den Swap wenn diese schon lang nicht mehr angefasst wurden. Das kann auch die OSDs betreffen. Falls der RAM nie so stark ausgelastet ist, das es Swap braucht, könnte dieser auch mal auf allen Hosts deaktiviert (swapoff) werden, um das Verhalten zu beobachten.
 
Der Kernel schiebt Daten in den Swap wenn diese schon lang nicht mehr angefasst wurden. Das kann auch die OSDs betreffen. Falls der RAM nie so stark ausgelastet ist, das es Swap braucht, könnte dieser auch mal auf allen Hosts deaktiviert (swapoff) werden, um das Verhalten zu beobachten.

Das hab ich aktuell schu so eingestellt! (swapoff -a auf allen Nodes!)
 
Das hab ich aktuell schu so eingestellt! (swapoff -a auf allen Nodes!)
Heißt, es ist mit dem swapoff auch aufgetreten?
 
Den einzigen Hinweis liefert die Tatsache (hab ich auch herausgefunden) dass ein Abschalten des Swap (swapoff -a) temporär Beschleunigung bringt! Allerdings hat uns die Seuche nach der Zeitspanne trotzdem wieder eingeholt!

Ja. Den Swap hab ich deaktiviert gelassen! Trotzdem ging die Performance wieder in den Keller!
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!