Ceph JumboFrames Cluster Crash - sehr kurios

noop1989

New Member
Mar 11, 2024
8
0
1
Germany
baribal-studios.de
Hey,

folgendes Szenario. 3 Node Cluster mit PVE-8.4 (Kernel 6.8.12-9-pve) und Ceph 19. Server von Thomas Krenn und 2x Switche Netgear M4350-24X8F8V im Stacking. Pro Node 4x10G LACP Hash-3+4 für das Ceph.

Server haben zwei Broadcom P425G wo jeweils 2 Ports für das Ceph-LACP genutzt werden.

Jetzt der Clou. JumboFrames 9000 auf bond und Interfaces eingestellt. Netgear Switche per default auf 9198. Jumbo-Ping läuft wie folgt:

1->2 ok
2->1 ok
2->3 ok
3->2 ok

1->3 keine Ausgabe
3->1 keine Ausgabe

Normaler Ping (MTU=1500) geht überall durch, auch wenn MTU noch auf 9000 steht.

"systemctl restart networking" bringt dann abhilfe. Doch wenn ich das Cluster mal neustarte, ist wieder Schluss mit dem Netz.

Netgear hat Firmware Updates veröffentlich und einen BugFix zu MTU rausgegeben. Hat leider keine Besserung gebracht.

DAC Kabel sind von Flexoptix. Sind korrekt geflasht, aber werden unterschiedlich erkannt. Auf seitens Switch sagt die UI Vendor Flexoptix und Brodcam. Seitens Proxmox ebenfalls. Wir haben Kabelmangel, daher 2x5m und 2x10m DAC für das Ceph im Einsatz. Die Längen werden überall korrekt erkannt.

Ich finde den Fehler nicht, warum ich nicht stabil JumboFrames für Ceph, auch nach Neustart von einem Node hinbekomme. Habt ihr noch Ideen?