Performance Ceph-Resources, best practice

Nico Kroll · Dec 13, 2022

Hallo zusammen!

Setup: 9 Nodes, 53 LXC, Ceph-Verbund aus HDDs mit SSDs als Cache, einige Maschinen haben ein lokales ZFS (SSDs) als Cache.

Prinzipiell ist die Performance gut und wir können uns nicht beschweren. Leider sind aber Folgebackups recht langsam.
Beispiel: LXC foo: 100 GB/400 files ZFS, 800 GB/900.000 files Ceph. Hier lief das erste Backup überhaupt mit voller Geschwindigkeit und nur das Netzwerk war das Limit. Bei weiteren Backups ist allerdings nur das Ceph voll ausgelastet und alle anderen Systeme idlen/"idlen". Dieses inkrementelle Backup dauert auch mehrere Faktoren länger als das Erste.

Es ist uns bewusst, dass ein SSD-only System empfohlen ist, aber eine Hardwaretransition dauert bedauerlicherweise etwas. Habt ihr eine Idee, was die Folgebackups so langsam macht? Und wie könnte man das Szenario verbessern? Oder sollten wir einfach erstmal damit leben und die Backups nur zwei Mal die Woche durchführen?

Vielen lieben Dank im Voraus!

Falk R. · Feb 10, 2023

Das ganze kann verschiedene Ursachen haben. Erstens finde ich das Setup etwas komisch, bei nur 53 LXC = 9 Hosts? Dann Ceph + LXC? Ich baue meine Ceph Cluster immer nur mit VMs, damit man live migrieren kann und die volle Flexibilität von Ceph zu nutzen.
Zu deinem Problem, was für Disks nutzt du für Ceph? Wenn HDDs, habt ihr auch SSDs für Bluestore/WAL?
Wenn man reine HDD Pools mit Ceph nutzt und dann extrem Random I/O erzeugt, wird das unbenutzbar langsam.
Inkrementelles Backup ist fast immer Random.

Nico Kroll · Feb 13, 2023

Hey SkyDiver79!
Wir verwenden "Ceph-Verbund aus HDDs mit SSDs als Cache". Also Metadaten auf SSDs, HDDs als Store.
Ist schon ein paar Tage her, weshalb wir in der Zwischenzeit eine andere Strategie entschieden haben. Wir werden im Laufe der nächsten Zeit vom Ceph wegmigrieren und es nicht mehr verwenden. Die Performance ist für unsere Anwendungsfälle nicht immer ausreichend. Wir haben ein paar Datenbanken, wo auch die reinen Ceph-SSDs-Pools performancetechnisch ausreichen. Deshalb können wir die Vorteile vom Ceph nicht ausspielen. Schade, aber so ist das nun einmal.
Wir werden in Zukunft klassisch ZFS (lokal) verwenden und die Replikation verwenden.

Falk R. · Feb 13, 2023

Wenn ihr eh LXC nutzt und keine livemigration macht, ist das mit ZFS deutlich einfacher aufzusetzen. Ich mag halt die Möglichkeit jederzeit patchen und einen Host rebooten zu können ohne Einschränkung der Dienste. Mit CRS auch voll automatisch. Sind aber 2 verschiedene Ansätze.

Performance Ceph-Resources, best practice

Nico Kroll

New Member

Falk R.

Distinguished Member

Nico Kroll

New Member

Falk R.

Distinguished Member

We value your privacy