Ceph JumboFrames Cluster Crash - sehr kurios

noop1989 · Apr 22, 2025

Hey,

folgendes Szenario. 3 Node Cluster mit PVE-8.4 (Kernel 6.8.12-9-pve) und Ceph 19. Server von Thomas Krenn und 2x Switche Netgear M4350-24X8F8V im Stacking. Pro Node 4x10G LACP Hash-3+4 für das Ceph.

Server haben zwei Broadcom P425G wo jeweils 2 Ports für das Ceph-LACP genutzt werden.

Jetzt der Clou. JumboFrames 9000 auf bond und Interfaces eingestellt. Netgear Switche per default auf 9198. Jumbo-Ping läuft wie folgt:

1->2 ok
2->1 ok
2->3 ok
3->2 ok

1->3 keine Ausgabe
3->1 keine Ausgabe

Normaler Ping (MTU=1500) geht überall durch, auch wenn MTU noch auf 9000 steht.

"systemctl restart networking" bringt dann abhilfe. Doch wenn ich das Cluster mal neustarte, ist wieder Schluss mit dem Netz.

Netgear hat Firmware Updates veröffentlich und einen BugFix zu MTU rausgegeben. Hat leider keine Besserung gebracht.

DAC Kabel sind von Flexoptix. Sind korrekt geflasht, aber werden unterschiedlich erkannt. Auf seitens Switch sagt die UI Vendor Flexoptix und Brodcam. Seitens Proxmox ebenfalls. Wir haben Kabelmangel, daher 2x5m und 2x10m DAC für das Ceph im Einsatz. Die Längen werden überall korrekt erkannt.

Ich finde den Fehler nicht, warum ich nicht stabil JumboFrames für Ceph, auch nach Neustart von einem Node hinbekomme. Habt ihr noch Ideen?

Falk R. · Apr 24, 2025

Also wenn du Jumbo nich1 zwischen Node 1&3 hinbekommst, obwohl es sonst läuft, muss etwas bei den Switches nicht stimmen.
Eventuell doch bei einem Port keine Jumbo Frames an? Das wäre die logischste Erklärung.
Sonst einfach ohne Jumbo Frames fahren. Der Performancegewinn macht sich eh nur bei großen I/Os bemerkbar, wenn du kleine DB Zugriffe hast, ist das Latenztechnisch oft sogar besser ohne Jumbo Frames.

cwt · Apr 26, 2025

Die Empfehlung von Netgear ist eine MTU von mindestens 9216 oder höher, wenn Clients mit 9000 „sprechen“. Ich würde die Ports der LAGs nochmal kontrollieren und die Werte ggf. anpassen.

noop1989 · May 20, 2025

Danke euch, wir mussten das Problem erstmal vertagen. Wir haben jetzt auf MTU-1500 gestellt. Es gab für die Netgear M4350 Firmware Updates mit Hinweis auf Bugfixes JumboFrames. Die Firmware hatten wir eingestellt, aber leider klappt es weiterhin nicht. Da hat Netgear wohl gerade arge Probleme mit.

Supaman · May 20, 2025

Warum 4x 10GB LACP ? Nehm doch direkt 40GB Dual Karten und bau einen Ring für Ceph, dann sparst Du Dir die Switche als potentielel Fehlerquelle.

noop1989 · May 20, 2025

Korrekt, das Cluster soll aber auf 9 Nodes noch erweitert werden. Ring mach ich nur bis max 5 Nodes.

Falk R. · May 20, 2025

Supaman said:
Warum 4x 10GB LACP ? Nehm doch direkt 40GB Dual Karten und bau einen Ring für Ceph, dann sparst Du Dir die Switche als potentielel Fehlerquelle.

Ich mag lieber Switches, da kann man vernünftig Troubleshooting betreiben. So ein Ring Setup hat ganz eigene Tücken und kann beim troublkeschooting sehr Anstrengend werden.

noop1989 · May 20, 2025

Naja, da bin ich auch eher ein Freund von Ring. Meistens liefern die Kunden das Netz und naja, ich muss dann IMMER nacharbeiten. Ich hab jetzt schon Netgear, FS, Mellox, HP und Dell in den Händen gehabt xD Immer war entweder falscher LACP Hash drin, falsche Ports geschaltet, JumboFrames vergessen, etc. die Liste ist lang. Es gibt eben viel zu selten gute Netzwerkadmins.

Falk R. · May 20, 2025

Daher kann der Kunde sein Netz betreiben wie er will, aber ich verbaue immer dedizierte Switches für Ceph, welche ich auch konfiguriere.
Du willst dein Ceph gar nicht über einen Coreswitch des Kunden laufen lasen, wo doch mal was passieren kann, Außerdem haben auch die wenigsten 100G in Coreswitch. Unter 100G baue ich aber kein Ceph mehr produktiv auf. Das mit den 4x 10G ist ja eher zum testen.

noop1989 · May 20, 2025

But why?
Ich bin auch ein Freund von eigene Storage-Switche, doch nimm erstmal das Geld in die Hand für 100G Stack Switche. Das ist keine leichte Entscheidung für viele Kunden aktuell.
Aktuell laufen all unsere Cluster super mit 2x25G als Ring oder 2x25G mit switchen. Weil im Betrieb hast du ja keine riesen Last auf dem Netz. Es wird ja nur relevant, wenn das rebalancing aktiv wird. Also eher bei einem Ausfall. Dann ist da aber eher die Frage, wielange braucht das Ceph zum rebalancing. Da es eh reguliert ist bei Proxmox, kann das doch von mir aus eine Nacht bzw. Tag durchlaufen. Hatten wir auch schonmal bei der Storage Erweiterung. Lief super.

Also ich nehm jetzt erstmal mit, das die neuen Netgear Modelle definitiv nicht für den Einsatzzweck nutzbar sind.

Falk R. · May 23, 2025

noop1989 said:
But why?
Ich bin auch ein Freund von eigene Storage-Switche, doch nimm erstmal das Geld in die Hand für 100G Stack Switche. Das ist keine leichte Entscheidung für viele Kunden aktuell.

Ja dann nimm mal 2x 800€ in die Hand.

Ich habe auch einen 4 Port 100G Switch zuhause. Fürs Homelab reicht ja einer.

noop1989 said:
Aktuell laufen all unsere Cluster super mit 2x25G als Ring oder 2x25G mit switchen. Weil im Betrieb hast du ja keine riesen Last auf dem Netz. Es wird ja nur relevant, wenn das rebalancing aktiv wird. Also eher bei einem Ausfall. Dann ist da aber eher die Frage, wielange braucht das Ceph zum rebalancing. Da es eh reguliert ist bei Proxmox, kann das doch von mir aus eine Nacht bzw. Tag durchlaufen. Hatten wir auch schonmal bei der Storage Erweiterung. Lief super.

Naja, bei einigen Umgebungen sehe ich schon richtige Last und nicht nur beim Rebalance. 2x 25G zu sättigen ist heutzutage keinen Schwierigkeit und kommt öfter vor als du denkst.

noop1989 said:
Also ich nehm jetzt erstmal mit, das die neuen Netgear Modelle definitiv nicht für den Einsatzzweck nutzbar sind.

Netgear würde ich auch nicht für Ceph benutzen.

Search

Search

Ceph JumboFrames Cluster Crash - sehr kurios

noop1989

New Member

Falk R.

Distinguished Member

cwt

Renowned Member

noop1989

New Member

Supaman

Member

noop1989

New Member

Falk R.

Distinguished Member

noop1989

New Member

Falk R.

Distinguished Member

noop1989

New Member

Falk R.

Distinguished Member

We value your privacy