[SOLVED] Designfragen für 3-Node Cluster?

fpausp

Renowned Member
Aug 31, 2010
633
43
93
Austria near Vienna
Ich würde gerne mal einen 3-Node Cluster mit physischen Maschinen bauen und hätte einige Designfragen an Euch...

Für die Vernetzung würde ich zwei Cisco Switch verwenden, ähnlich wie in der Proxmox Doku gezeichnet:
1697470806550.png


Es sollte noch ein Proxmox-Backupserver und ein NAS (QNAP) angebunden werden können.
Eine DELLBOSS für das System und 8 Platten für den Ceph-Storage mittels Raidcontroller.


1. Frage zum Netz:
Wieviele VLANS sollten für das Separieren der Netze (Management, Storage, usw.) verwendet werden und welche davon sollten ausfallsicher oder performant oder beides sein?

2. Frage zum Netz:
Muss zwingend ein 10G Switch verwendet werden, welche Vor/Nachteile bietet eine direkte Vernetzung von 10G NICs?

3. Frage zu den Nodes:
Welches Filesystem würdet Ihr für das System verwenden weil ja Proxmox irgendwann mal eine Systemsicherung auf den PBS anbieten möchte.

4. Frage zu den Nodes:
Sollen gleich alle 8 Platten für den Ceph-Storage verwendet werden oder gibt es dort soetwas vergleichgar mit einer Sparedisk bei Raidcontrollern?

5. Frage:
Was gibt es sonst noch zu beachten?
 
Last edited:
Heyo,

ich gehe hier mal davon aus, dass es eine kleine Enterprise-Umgebung mit entsprechender Hardware ist.

1. Frage zum Netz:
Wieviele VLANS sollten für das Separieren der Netze (Management, Storage, usw.) verwendet werden und welche davon sollten ausfallsicher oder performant oder beides sein?
Wie viele Netzwerkports sind vorhanden? Als Best-practises für eine kleine Enterprise-Umgebung würde ich folgendes nehmen:
  • 2x 10Gbit fürs CEPH (Als LACP-Bond)
  • 2x 1Gbit oder 2x 10Gbit fürs VM-Netzwerk
  • 2x 1Gbit fürs Proxmox Corosync (kein Bond, ring0 und ring1 getrennt)
Ceph sollte auf jeden Fall ein eigenes Netz (10Gb+) bekommen. Die VMs sollten natürlich auch ein Netzwerk bekommen.

Das Corosync braucht keine hohe Performance - 100Mbit würden hier auch schon reichen - aber es ist wichtig, dass dort die Latenzen niedrig bleiben, weshalb diese ihre Leitung nicht mit anderen Diensten teilen sollen.

2. Frage zum Netz:
Muss zwingend ein 10G Switch verwendet werden, welche Vor/Nachteile bietet eine direkte Vernetzung von 10G NICs?
Nein, es ist auch möglich, die Server direkt miteinander zu verbinden, das nennt sich Full Mesh Network: https://pve.proxmox.com/wiki/Full_Mesh_Network_for_Ceph_Server . Wir nutzen das bei einem unserer kleinen Cluster, da ist Ceph (10Gbit) direkt verbunden und VM-Network/Corosync laufen über einen 1Gbit-Switch.

Vorteil ist, dass man sich den großen Switch spart - es ist dann auch nicht so teuer, gleich auf 40/100Gbit zu gehen. Nachteile sind die schlechtere Skalierbarkeit mit mehr Nodes und die höhere Komplexität bei der Konfiguration.

3. Frage zu den Nodes:
Welches Filesystem würdet Ihr für das System verwenden weil ja Proxmox irgendwann mal eine Systemsicherung auf den PBS anbieten möchte.
Ich denke mal sowohl ZFS als auch klassisches Ext4 auf root wird von der Systemsicherung unterstützt werden.

4. Frage zu den Nodes:
Sollen gleich alle 8 Platten für den Ceph-Storage verwendet werden oder gibt es dort soetwas vergleichgar mit einer Sparedisk bei Raidcontrollern?
Als verteiltes Dateisystem sind Sparedisk ist bei Ceph nicht notwendig. Ceph arbeitet standartmäßig mit 3/2 setting, d.h. alle Daten werden auf 3 verschiedenen OSDs (Disks) geschrieben und sind nur verfügbar, solange sie auf 2 oder mehr OSDs vorhanden sind.

5. Frage:
Was gibt es sonst noch zu beachten?
Enterprise-Disks verwenden. Customer-SSDs haben kein PLP, unterstützen damit keine async writes. Die Performance wird dann unterirdisch sein.

Kein Raid zusammen mit Ceph verwenden - auch kein Raidcontroller mit RAID0. Ceph sollte direkten Zugriff auf die Disks haben, idealerwise über eine SAS-HBA oder einen auf IT-Mode geflashten Raidcontroller.

Außerdem beim Sizing beachten, dass Ceph selbst auch gut Ressourcen (RAM+CPU) benötigt, und dass dass Ceph-Storage nie komplett gefüllt werden soll.

Viele Grüße,
Benedikt
 
  • Like
Reactions: fpausp
Bei Cisco wird das mit 10G schnell teuer, ich nutze dann lieber günstigere Switches, dafür dann oft 25G für Ceph.
Da du einen DELL Server hast, bei neueren Modellen ist oft schon 10/25 G Netzwerk verbaut. Die Raid Controller kannst du einfach auf HBA Mode umstellen, das umflashen macht man nur bei den alten LSI Controllern.
Was für Platten willst du denn für Ceph benutzen? Auf den BossCards bitte nur ext4 und kein ZFS nutzen, da sind kleine SATA SSDs drauf mit nicht so viel write Endurance.
 
  • Like
Reactions: B.Otto
Hallo und danke für die wertvollen Infos...

ich gehe hier mal davon aus, dass es eine kleine Enterprise-Umgebung mit entsprechender Hardware ist.
Ja, eine Bildungseinrichtung...

2x 1Gbit fürs Proxmox Corosync (kein Bond, ring0 und ring1 getrennt)
Sind das zwei einzelne NICs, als Bridge oder was ist unter ring0 und ring1 zu verstehen?


Nein, es ist auch möglich, die Server direkt miteinander zu verbinden, das nennt sich Full Mesh Network: https://pve.proxmox.com/wiki/Full_Mesh_Network_for_Ceph_Server . Wir nutzen das bei einem unserer kleinen Cluster, da ist Ceph (10Gbit) direkt verbunden und VM-Network/Corosync laufen über einen 1Gbit-Switch.
Ja das wäre dann die Sparvariante...

Ich denke mal sowohl ZFS als auch klassisches Ext4 auf root wird von der Systemsicherung unterstützt werden.
Würde dann aufgrund der Info von @Falk R. ext4 nehmen (weil DELLVBOSS).


Enterprise-Disks verwenden. Customer-SSDs haben kein PLP, unterstützen damit keine async writes.
Enterprise-Disks sind verbaut...

Kein Raid zusammen mit Ceph verwenden - auch kein Raidcontroller mit RAID0. Ceph sollte direkten Zugriff auf die Disks haben, idealerwise über eine SAS-HBA oder einen auf IT-Mode geflashten Raidcontroller.
Muss noch herausfinden welcher Raidcontroller drinnen steckt, hoffe der lässt sich auf HBA umstellen oder flashen.

Außerdem beim Sizing beachten, dass Ceph selbst auch gut Ressourcen (RAM+CPU) benötigt, und dass dass Ceph-Storage nie komplett gefüllt werden soll.
OK.

Viele Grüße,
Benedikt
Vielen Dank, Benedikt!
 
Was für Platten willst du denn für Ceph benutzen? Auf den BossCards bitte nur ext4 und kein ZFS nutzen, da sind kleine SATA SSDs drauf mit nicht so viel write Endurance.
OK, kein ZFS... Wollte eigentlich btrfs nehmen und ein Raid1 machen, geht das auch?
 
Last edited:
OK, kein ZFS... Wollte eigentlich btrfs nehmen und ein Raid1 machen, geht das auch?
Auf der Boss Card ist immer automatisch ein Raid1 drauf. Habe bisher noch nicht getestet das umzustellen. Ich finde das auch bequemer für das OS, wenn mal eine m.2 kaputt geht, meldet das dein iDRAC direkt und der macht automatisch den Rebuild nach dem Tausch.
 
Ja, eine Bildungseinrichtung...
Ich habe vorletzte Woche erst wieder die Schulen einer Stadt von vSphere auf PVE umgestellt. Da haben wir in die alten ESX (Wortmann Server) NVMe nachgerüstet und für Ceph jeweils eine Dual 100G Karte. Dazu zwei MikroTik CRS 504 (4x 100G) Switches. Aus den 4x NVMe pro Host haben wir Spitze bis 78 GBit Netzwerktraffic auf dem Ceph Netzwerk raus geholt. Also Ceph braucht immer schnelles Netzwerk und besser ist noch schneller. ;)
Die Umrüstung kostete nur 3,5k fürs Netzwerk und die 12x 7,68 TB NVMe kamen aus einem anderen Topf.
Läuft jetzt schneller (vor allem die iServ) und ist was Wartung angeht deutlich günstiger als VMware + Storage.
 
Auf der Boss Card ist immer automatisch ein Raid1 drauf. Habe bisher noch nicht getestet das umzustellen. Ich finde das auch bequemer für das OS, wenn mal eine m.2 kaputt geht, meldet das dein iDRAC direkt und der macht automatisch den Rebuild nach dem Tausch.
OK, kenn ich so noch nicht...
Ich habe vorletzte Woche erst wieder die Schulen einer Stadt von vSphere auf PVE umgestellt. Da haben wir in die alten ESX (Wortmann Server) NVMe nachgerüstet und für Ceph jeweils eine Dual 100G Karte. Dazu zwei MikroTik CRS 504 (4x 100G) Switches. Aus den 4x NVMe pro Host haben wir Spitze bis 78 GBit Netzwerktraffic auf dem Ceph Netzwerk raus geholt. Also Ceph braucht immer schnelles Netzwerk und besser ist noch schneller. ;)
Die Umrüstung kostete nur 3,5k fürs Netzwerk und die 12x 7,68 TB NVMe kamen aus einem anderen Topf.
Läuft jetzt schneller (vor allem die iServ) und ist was Wartung angeht deutlich günstiger als VMware + Storage.
Cool, gratuliere!
 
Cool, gratuliere!
Ich will dir damit nahelegen, du bist auf dem richtigen Weg, aber bitte nicht am Netzwerk oder den SSDs sparen, das rächt sich schnell. Sparen kann man bei der Wahl des Herstellers. ;)
 
  • Like
Reactions: fpausp

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!