Proxmox (Ceph) Cluster mit MS-01 - Thunderbolt vs SFP+

anderl1969

Member
Jul 10, 2022
76
14
13
Hallo zusammen,

ich experimentiere gerade mit dem MS-01 von Minisforum und will einen 3 Node-Cluster mit HA und evtl. Ceph-Storage bauen. Ich muss vorausschicken, dass ich mit Ceph noch keinerlei Erfahrung habe (mein derzeitiger "Produktiv"-Cluster besteht aus 2 HPE Microserver Gen8 + QDevice; die Nodes haben jeweils ein lokales ZFS-Storage mit regelmäßiger Replizierung...)

Mein vorhandenes LAN ist ein reines 1Gb Netzwerk!

Auf den MS-01 nutze ich den 1. RJ45 (2.5 GBit) Port für Intel vPro und den 2. RJ45 (2.5 GBit) Port zur Anbindung ans 1GBit-LAN.

Für die Vernetzung der Nodes untereinander will ich eine dedizierte Lösung:

Meine erste Idee für eine hochperformante Vernetzung der Nodes war, mit den beiden USB4-Ports ein Thunderbolt-Networking eine Ring-Topologie zw. den Nodes aufzubauen. Aber je mehr ich mich mit dem Thema beschäftige, desto mehr Zweifel habe ich bzgl. Stabilität und Zuverlässigkeit.

Momentan tendiere ich mehr zu einem zusätzlichen kleinen (4-Port) 10Gbit Switch mit einem isolierten VLAN für die Node-zu-Node-Kommunikation.

  • Von Unifi gibt's den Flex XG, der sich schön in meine Unifi Landschaft einfügen würde. Allerdings hat der RJ45 Ports und entsprechend müssten dann bei den MS-01 SFP+ Transceiver zum Einsatz kommen. Und hier habe ich leichte Sorgen, bzgl. der Hitze-Entwicklung dieser SFP+ auf RJ45 Transceiver

  • Alternativ gäb's von MikroTik den CRS305-1G-4S+IN, ebenfalls mit 4x 10Gbit, aber als SFP+ Ports. Damit ließe sich die Vernetzung zw. Switch und Node mit passiven DAC-Kabeln realisieren, die deutlich weniger Wärme-Entwicklung haben sollen.

Wie sind Eure Erfahrungen dazu? Mache ich mir bzgl. Hitzeentwicklung von SFP+/RJ45 Adaptern zu viele Sorgen? Die Unifi Lösung ist zwar deutlich teurer, aber würde halt sauber in meine bestehende Infrastruktur reinpassen...

Freue mich auf Eure Meinungen/Erfahrungen.
 
Wie gut Netz über Thunderbolt geht ist die Frage. Ich habe keine persönliche Erfahrung, aber was man die letzten Monate so gelesen hat, war das eher so meh.
Die Kisten haben auch 2x 10G via SFP slots oder? Mit 3 günsten und wahrscheinlich kurzen DAC Kabeln, sollte sich da leicht ein Full-Mesh Netzwerk machen lassen. Siehe auch https://pve.proxmox.com/wiki/Full_Mesh_Network_for_Ceph_Server
 
Ja, die MS-01 nodes haben je 2 SFP+ Slots :)
Das hatte ich gar nicht auf dem Schirm, dass ich darüber auch das Mesh aufziehen kann. Besten Dank für den Hinweis samt Link. Jetzt muss ich nur noch rausarbeiten, welche Variante ich umsetzen will...
 
  • Like
Reactions: aaron
3 Node-Cluster mit HA und evtl. Ceph
Drei Nodes sind das absolute Minimum für Ceph. Sobald ein Knoten ausfällt, ist Ceph "degraded". Und da es keinen Knoten zum ausweichen gibt, bleibt das dann dauerhaft so. Dies gilt für die übliche size=3/min_size=2 Konfiguration. Auch dies (3/2) ist das akzeptable Minimum, bitte nicht verringern.

Damit Ceph sich selbst reparieren kann, braucht man also mindestens vier Knoten, die durchgehend verfügbar sind. Und aus anderen Gründen (Mehrheiten bilden sich einfacher bei ungerader Anzahl) eigentlich eher fünf.

Das andere Problem mit drei Knoten tritt auf, wenn nur ein sehr wenige - vielleicht nur zwei - OSD pro Knoten existieren: wenn ein OSD ausfällt, muss der Verbleibende die Daten des Toten aufnehmen. Verschieben auf einen anderen (vierten!) Knoten geht ja nicht. Somit darf dieser OSD vorher nur halb befüllt gewesen sein. Mit nur zwei OSD und nur drei Knoten kann man also alle OSD nur zu maximal ~45 Prozent befüllen.

Mit mehr Disks pro Knoten wird dieser Effekt geringer; mit mehr Knoten verschwindet er praktisch.

Ceph ist toll und skaliert nach oben ins Unendliche. Bei Konstellationen am unteren Ende gibt es aber diverse Fallstricke, die problematisch sein können, weil sie nicht offensichtlich sind. Nach der Installation läuft ja erstmal alles prima...

Nebenbei: obiges unterschlägt den Performance-Aspekt. Netzwerkdateisysteme sind um Größenordnungen langsamer als lokale Speicher. Mit 3/2 muss ja jeweils einmal via Netzwerk geschrieben werden, bevor zwei von den dreien "fertig" melden können. Darum will man ein schnelles Netzwerk haben.

Allerdings gilt wie immer: ymmv, jeder hat andere Ansprüche und akzeptiert unterschiedliche Langsamkeit.

Disclaimer: ich nutze das nur "halbherzig" im Homelab und auch nur in einer Konstellation unterhalb des Wünschenswerten...
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!