Grundsätzliche Frage zur Ceph Skalierung

alexx

Active Member
Apr 28, 2017
7
1
43
Wir betreiben seit Jahren einen immer wachsenden Proxmox+Ceph Cluster. 6 Proxmox Knoten sind im Moment dediziert für Ceph zuständig.

Bei der Planung der Erweiterungen kommt natürlich immer wieder die Frage nach der Ausfallsicherheit auf. Mit der standard min_site=2 nimmt der Pool bei einem Ausfall von 2 der Ceph knoten keine Schreibzugriffe mehr an. Wenn man den Ceph Cluster erweitert wächst mit steigender Zahl der Ceph Knoten natürlich auch die Wahrscheinlichkeit, daß 2 Knoten gleichzeitig ausfallen.

Bei richtig großen Clustern mit 30, 40 oder mehr Knoten muss das ja ein Thema sein. Ich halte es für unwahrscheinlich, daß man bei einem Ausfall von 2 Knoten akzeptiert daß Petabytes an Daten in readonly Modus versetzt werden. Wie wird das gehandhabt bzw gelöst?
 
Je größer der Cluster, desto schneller sind die ausgefallenen Replicas im restlichen Cluster wiederhergestellt. Bei großen Clustern kann man mit der CRUSH Map und den Regeln auch sicherstellen, dass Replicas nicht doppelt in einem Rack oder Raum usw. vorkommen, damit man auch solche Ausfälle abfangen kann.

Wenn dir der Speicherplatz egal ist, kannst du natürlich die size auch höher einstellen.

Je nach Use-Case sind dann EC Pools aber auch interessant.
 
Ich habe auch schon 4/2 Setups gesehen. Immer eine Frage des Geldes für Disks.
Bei EC Pools bin ich persönlich sehr vorsichtig mit der Performance und teste sowas vorher intensiv.
 
  • Like
Reactions: aaron
Wie wird das gehandhabt bzw gelöst?
Mit z.B. 5/3 oder dementsprechend höher nach Sicherheitsbedürfnis bzw. Nodeanzahl. Tatsächlich die Budgetfrage für disks, die aber trotzdem im Hintergrund sein sollte. Die Milchmädchenrechnung kann so aussehen: Lieber eine Kopie mehr 'live' haben mit einer Einmalausgabe, als kein Geld verdienen zu können (oder gar Verlust), während der Zeit die man fürs desaster recovery (alles neu aufsetzen, Kaltbackup wieder reindudeln) benötigt. Die Einmalausgabe amortisiert sich sofort, wenn man gar keinen Ausfall durch solche downtime hat.
 
Bei großen Clustern mit 11+ Nodes läuft das mit EC 6+3 oder auch gern mal 8+3 sehr gut bei hoher Redundanz und der Verschnitt ist auch OK.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!