CEPH wird langsam

OSF · Aug 28, 2019

Folgende Konfiguration:
4 Nodes (je 2 Sockets à 10 Kerne mit HT, 192GB RAM, 240GB SSD HW-RAID1 für pve, 3x NVMe SSD für CEPH)

Problem: Nach einiger Zeit (30-40 Tage) sinkt die Performance von CEPH!
Standard: Max bandwidth 1660, Min bandwidth 1540
Der Durchsatz fällt in 5 Wochen auf ca. Max 150 Min 140!!! Nach einem Neustart der 4 Server ist das System wieder schnell!
(Performance steigt mit jedem neugestarteten Node)

Woran kann das liegen? Irgendwelche "Schrauben" an Caches, die man drehen kann?

1000 Dank
Rainer

DerDanilo · Aug 28, 2019

Läuft vielleicht ein deep scrub?

OSF · Aug 28, 2019

Diese Settings hab ich rausgefischt:

root@pveceph01:~# for f in /var/run/ceph/ceph-osd.*.asok; do ceph --admin-daemon $f config show; done | grep 'debug_ms\|osd_deep_scrub_interval\|osd_scrub_begin_hour\|osd_scrub_end_hour\|osd_scrub_sleep'
"debug_ms": "0/5",
"osd_deep_scrub_interval": "604800.000000",
"osd_scrub_begin_hour": "0",
"osd_scrub_end_hour": "24",
"osd_scrub_sleep": "0.000000",
"debug_ms": "0/5",
"osd_deep_scrub_interval": "604800.000000",
"osd_scrub_begin_hour": "0",
"osd_scrub_end_hour": "24",
"osd_scrub_sleep": "0.000000",
"debug_ms": "0/5",
"osd_deep_scrub_interval": "604800.000000",
"osd_scrub_begin_hour": "0",
"osd_scrub_end_hour": "24",
"osd_scrub_sleep": "0.000000",
root@pveceph01:~#

Vielleicht würde helfen, den Zeitraum in die Nacht zu verlegen...

Wie kann ich mir den laufenden scrub anzeigen lassen? Oder checken, ob einer läuft?

Wir haben einige weitere CEPH-Cluster am Laufen (3-Nodes) und da tritt dieses Problem nicht auf...?

thoe · Aug 28, 2019

Moin,
sollte das nicht unter: http://<ip.von.einem.proxmox>:7000
angezeigt werden.

Salve.

Alwin · Sep 2, 2019

OSF said:
Standard: Max bandwidth 1660, Min bandwidth 1540
Der Durchsatz fällt in 5 Wochen auf ca. Max 150 Min 140!!! Nach einem Neustart der 4 Server ist das System wieder schnell!
(Performance steigt mit jedem neugestarteten Node)

Das hört sich doch schon seltsam an, das die Performance auf ein Zehntel einbricht. Was für NVMe SSDs sind den Verbaut?

Mittel ein paar Einzeilern [0] lässt sich leicht herausfinden, an welchem Tag und zu welcher Uhrzeit ein Scrub einer PG stattgefunden hat. Aber das sollte bei NVMe SSDs keinen großen Einbrauch herbeiführen und auch nicht dauerhaft.

OSF said:
"osd_deep_scrub_interval": "604800.000000",

Das Interval ist einmal pro Woche pro PG. Die PGs haben alle ein separates Alter, ist dieses grösser als der Interval, dann wird die PG ge-scrubbed.

thoe said:
sollte das nicht unter: http://<ip.von.einem.proxmox>:7000

Proxmox VE besitzt sein eigenes Dashboard, daher ist das Ceph Dashboard von Haus aus nicht installiert. Der Status sollte aber auch im Proxmox VE Dashboard zu sehen sein.

[0] https://ceph.io/geen-categorie/deep-scrub-distribution/

OSF · Sep 2, 2019

Alwin said:
Das hört sich doch schon seltsam an, das die Performance auf ein Zehntel einbricht. Was für NVMe SSDs sind den Verbaut?

Das ist wahrlich dubios!! Verbaut sind 3 x SSD 2.5" Intel DC P4500 Ser. 4.0TB (PCIe/NVMe)

Bin ja auch nicht sicher, dass es an der Scrubberei liegt...
Wir haben einige dieser Installationen (halt 3-Nodes) wo genanntes Problem nicht auftritt!
An sich bin ich mit PVE ausserordentlich zufrieden! Alles gleitet klappt und rollt....

Den einzigen Hinweis liefert die Tatsache (hab ich auch herausgefunden) dass ein Abschalten des Swap (swapoff -a) temporär Beschleunigung bringt! Allerdings hat uns die Seuche nach der Zeitspanne trotzdem wieder eingeholt!

Alwin · Sep 3, 2019

OSF said:
Den einzigen Hinweis liefert die Tatsache (hab ich auch herausgefunden) dass ein Abschalten des Swap (swapoff -a) temporär Beschleunigung bringt! Allerdings hat uns die Seuche nach der Zeitspanne trotzdem wieder eingeholt!

Wie ist die RAM Auslastung in den 5 Wochen? Hohe IO zu sehen?

OSF · Sep 3, 2019

RAM Auslastung gemäß den laufenden VMs... Nichts ungewöhnliches!
IO gering - w/a unter 1%...

Alwin · Sep 3, 2019

OSF said:
RAM Auslastung gemäß den laufenden VMs... Nichts ungewöhnliches!
IO gering - w/a unter 1%...

Na ich mein, gesamt gesehen über den Zeitraum vom Neustart zum langsamen. Ist da etwas zu erkennen, stetig anwachsender RAM oder IO Spitzen?

OSF · Sep 4, 2019

Nein! Weder RAM noch IO ist ungewöhnlich hoch!
Nur der Swap - so eingeschaltet - steigt ohne ersichtlichen Grund!

Alwin · Sep 4, 2019

OSF said:
Nur der Swap - so eingeschaltet - steigt ohne ersichtlichen Grund!

Der Kernel schiebt Daten in den Swap wenn diese schon lang nicht mehr angefasst wurden. Das kann auch die OSDs betreffen. Falls der RAM nie so stark ausgelastet ist, das es Swap braucht, könnte dieser auch mal auf allen Hosts deaktiviert (swapoff) werden, um das Verhalten zu beobachten.

OSF · Sep 4, 2019

Alwin said:
Der Kernel schiebt Daten in den Swap wenn diese schon lang nicht mehr angefasst wurden. Das kann auch die OSDs betreffen. Falls der RAM nie so stark ausgelastet ist, das es Swap braucht, könnte dieser auch mal auf allen Hosts deaktiviert (swapoff) werden, um das Verhalten zu beobachten.

Das hab ich aktuell schu so eingestellt! (swapoff -a auf allen Nodes!)

Alwin · Sep 5, 2019

OSF said:
Das hab ich aktuell schu so eingestellt! (swapoff -a auf allen Nodes!)

Heißt, es ist mit dem swapoff auch aufgetreten?

OSF · Sep 5, 2019

OSF said:
Den einzigen Hinweis liefert die Tatsache (hab ich auch herausgefunden) dass ein Abschalten des Swap (swapoff -a) temporär Beschleunigung bringt! Allerdings hat uns die Seuche nach der Zeitspanne trotzdem wieder eingeholt!

Ja. Den Swap hab ich deaktiviert gelassen! Trotzdem ging die Performance wieder in den Keller!

Alwin · Sep 5, 2019

Dann am besten mit atop aufzeichnen und zusätzlich das Logging bei Ceph (subsystem osd) aufdrehen. Mal sehen was dabei raus kommt.
https://docs.ceph.com/docs/nautilus/rados/troubleshooting/log-and-debug/

Search

Search

CEPH wird langsam

OSF

Active Member

DerDanilo

Famous Member

OSF

Active Member

thoe

Well-Known Member

Alwin

Proxmox Retired Staff

OSF

Active Member

Alwin

Proxmox Retired Staff

OSF

Active Member

Alwin

Proxmox Retired Staff

OSF

Active Member

Alwin

Proxmox Retired Staff

OSF

Active Member

Alwin

Proxmox Retired Staff

OSF

Active Member

Alwin

Proxmox Retired Staff

We value your privacy