Ceph JumboFrames Cluster Crash - sehr kurios

noop1989

New Member
Mar 11, 2024
14
3
3
Germany
baribal-studios.de
Hey,

folgendes Szenario. 3 Node Cluster mit PVE-8.4 (Kernel 6.8.12-9-pve) und Ceph 19. Server von Thomas Krenn und 2x Switche Netgear M4350-24X8F8V im Stacking. Pro Node 4x10G LACP Hash-3+4 für das Ceph.

Server haben zwei Broadcom P425G wo jeweils 2 Ports für das Ceph-LACP genutzt werden.

Jetzt der Clou. JumboFrames 9000 auf bond und Interfaces eingestellt. Netgear Switche per default auf 9198. Jumbo-Ping läuft wie folgt:

1->2 ok
2->1 ok
2->3 ok
3->2 ok

1->3 keine Ausgabe
3->1 keine Ausgabe

Normaler Ping (MTU=1500) geht überall durch, auch wenn MTU noch auf 9000 steht.

"systemctl restart networking" bringt dann abhilfe. Doch wenn ich das Cluster mal neustarte, ist wieder Schluss mit dem Netz.

Netgear hat Firmware Updates veröffentlich und einen BugFix zu MTU rausgegeben. Hat leider keine Besserung gebracht.

DAC Kabel sind von Flexoptix. Sind korrekt geflasht, aber werden unterschiedlich erkannt. Auf seitens Switch sagt die UI Vendor Flexoptix und Brodcam. Seitens Proxmox ebenfalls. Wir haben Kabelmangel, daher 2x5m und 2x10m DAC für das Ceph im Einsatz. Die Längen werden überall korrekt erkannt.

Ich finde den Fehler nicht, warum ich nicht stabil JumboFrames für Ceph, auch nach Neustart von einem Node hinbekomme. Habt ihr noch Ideen?
 
Also wenn du Jumbo nich1 zwischen Node 1&3 hinbekommst, obwohl es sonst läuft, muss etwas bei den Switches nicht stimmen.
Eventuell doch bei einem Port keine Jumbo Frames an? Das wäre die logischste Erklärung.
Sonst einfach ohne Jumbo Frames fahren. Der Performancegewinn macht sich eh nur bei großen I/Os bemerkbar, wenn du kleine DB Zugriffe hast, ist das Latenztechnisch oft sogar besser ohne Jumbo Frames.
 
  • Like
Reactions: gurubert
Die Empfehlung von Netgear ist eine MTU von mindestens 9216 oder höher, wenn Clients mit 9000 „sprechen“. Ich würde die Ports der LAGs nochmal kontrollieren und die Werte ggf. anpassen.
 
Danke euch, wir mussten das Problem erstmal vertagen. Wir haben jetzt auf MTU-1500 gestellt. Es gab für die Netgear M4350 Firmware Updates mit Hinweis auf Bugfixes JumboFrames. Die Firmware hatten wir eingestellt, aber leider klappt es weiterhin nicht. Da hat Netgear wohl gerade arge Probleme mit.
 
Warum 4x 10GB LACP ? Nehm doch direkt 40GB Dual Karten und bau einen Ring für Ceph, dann sparst Du Dir die Switche als potentielel Fehlerquelle.
 
Warum 4x 10GB LACP ? Nehm doch direkt 40GB Dual Karten und bau einen Ring für Ceph, dann sparst Du Dir die Switche als potentielel Fehlerquelle.
Ich mag lieber Switches, da kann man vernünftig Troubleshooting betreiben. So ein Ring Setup hat ganz eigene Tücken und kann beim troublkeschooting sehr Anstrengend werden.
 
Naja, da bin ich auch eher ein Freund von Ring. Meistens liefern die Kunden das Netz und naja, ich muss dann IMMER nacharbeiten. Ich hab jetzt schon Netgear, FS, Mellox, HP und Dell in den Händen gehabt xD Immer war entweder falscher LACP Hash drin, falsche Ports geschaltet, JumboFrames vergessen, etc. die Liste ist lang. Es gibt eben viel zu selten gute Netzwerkadmins.
 
Daher kann der Kunde sein Netz betreiben wie er will, aber ich verbaue immer dedizierte Switches für Ceph, welche ich auch konfiguriere.
Du willst dein Ceph gar nicht über einen Coreswitch des Kunden laufen lasen, wo doch mal was passieren kann, Außerdem haben auch die wenigsten 100G in Coreswitch. Unter 100G baue ich aber kein Ceph mehr produktiv auf. Das mit den 4x 10G ist ja eher zum testen. ;)
 
But why?
Ich bin auch ein Freund von eigene Storage-Switche, doch nimm erstmal das Geld in die Hand für 100G Stack Switche. Das ist keine leichte Entscheidung für viele Kunden aktuell.
Aktuell laufen all unsere Cluster super mit 2x25G als Ring oder 2x25G mit switchen. Weil im Betrieb hast du ja keine riesen Last auf dem Netz. Es wird ja nur relevant, wenn das rebalancing aktiv wird. Also eher bei einem Ausfall. Dann ist da aber eher die Frage, wielange braucht das Ceph zum rebalancing. Da es eh reguliert ist bei Proxmox, kann das doch von mir aus eine Nacht bzw. Tag durchlaufen. Hatten wir auch schonmal bei der Storage Erweiterung. Lief super.

Also ich nehm jetzt erstmal mit, das die neuen Netgear Modelle definitiv nicht für den Einsatzzweck nutzbar sind.
 
  • Like
Reactions: Johannes S
But why?
Ich bin auch ein Freund von eigene Storage-Switche, doch nimm erstmal das Geld in die Hand für 100G Stack Switche. Das ist keine leichte Entscheidung für viele Kunden aktuell.
Ja dann nimm mal 2x 800€ in die Hand. ;) Ich habe auch einen 4 Port 100G Switch zuhause. Fürs Homelab reicht ja einer. ;)
Aktuell laufen all unsere Cluster super mit 2x25G als Ring oder 2x25G mit switchen. Weil im Betrieb hast du ja keine riesen Last auf dem Netz. Es wird ja nur relevant, wenn das rebalancing aktiv wird. Also eher bei einem Ausfall. Dann ist da aber eher die Frage, wielange braucht das Ceph zum rebalancing. Da es eh reguliert ist bei Proxmox, kann das doch von mir aus eine Nacht bzw. Tag durchlaufen. Hatten wir auch schonmal bei der Storage Erweiterung. Lief super.
Naja, bei einigen Umgebungen sehe ich schon richtige Last und nicht nur beim Rebalance. 2x 25G zu sättigen ist heutzutage keinen Schwierigkeit und kommt öfter vor als du denkst.
Also ich nehm jetzt erstmal mit, das die neuen Netgear Modelle definitiv nicht für den Einsatzzweck nutzbar sind.
Netgear würde ich auch nicht für Ceph benutzen.
 
  • Like
Reactions: Johannes S