Proxmox Ceph Cluster Network mit MC LAG - Performance

Volume

New Member
Jul 16, 2025
2
0
1
Hallo zusammen,
ich baue aktuell einen 3-Node-Proxmox-Cluster mit Ceph auf. Die Nodes sind jeweils per LACP an zwei Dell-Switches (100 Gbit) angebunden.

Netzwerktopologie:
Switch 1:

→ 100 Gbit → Node 1
→ 100 Gbit → Node 2
→ 100 Gbit → Node 3

Switch 2:
→ 100 Gbit → Node 1
→ 100 Gbit → Node 2
→ 100 Gbit → Node 3

Die LACP-Verbindungen wurden via MC-LAG eingerichtet und funktionieren grundsätzlich.

Problem:
Wenn ich mit iperf einen Geschwindigkeitstest von einem Node zu einem anderen mache, erreiche ich ca. 80 Gbit/s – das erscheint mir plausibel.
Starte ich jedoch gleichzeitig einen Test von Node 3 → Node 1 und von Node 3 → Node 2, fällt der Durchsatz auf jeweils exakt 49 Gbit/s.

Ziel:
Ich möchte erreichen, dass die Bandbreite bei parallelen Verbindungen besser aufgeteilt wird – also z. B. durch Nutzung unterschiedlicher Ports oder Wege – sodass die volle Bandbreite ausgenutzt wird.

Ich habe bereits mit verschiedenen Hashing-Algorithmen (Layer 2+3 und Layer 3+4) experimentiert – leider ohne Erfolg.

Setup:
Neue Dell Sonic Enterprise Switches
Dell Server mit Broadcom 100Gbit Netzwerkkarten
LACP/MC-LAG korrekt eingerichtet (funktioniert grundsätzlich stabil)
Bezug auf folgende Anleitung:
https://www.thomas-krenn.com/de/wiki/Ceph_Perfomance_Guide_-_Sizing_&_Testing

Frage:
Gibt es eine Möglichkeit, das LACP-Loadbalancing so zu optimieren, dass bei mehreren parallelen Verbindungen auch mehrere Links verwendet werden und nicht nur ein einziger?
Bin für jede Idee, Erfahrungswerte oder Tipps sehr dankbar – habe bereits viel getestet und recherchiert, aber bisher keine zufriedenstellende Lösung gefunden.


Viele Grüße
 
Hi, wenn du so schlechte Performance und auch unterschiedliche Perforance hast, dann hast du irgendwo einen großen fehler im Netzwerk.
Wenn du mit iperf schon die Netzwerkports nicht ausgelastet bekommst, dann läuft das Setup nicht wirklich stabil.
Eventuell mal die genaue Konfiguration der Netzwerkkonfiguration auf dem Host, hier posten.
Erreichst du mit anderen Geräten überhaupt mal wenigstens 95 GBit? Mit Jumbo Frames sollten 98 GBit drin sein bei iperf.
 
Hi, meistens pendelt sich die Performance bei den 80Gbit/s ein kurz habe ich schonmal die 90Gbit/s gesehen. Aber auch bei einer Verbindung erreich ich 98 Gbit nicht. Jumboframes bzw. MTU habe ich auf 9100 gesetzt.

Code:
auto lo
iface lo inet loopback

auto ensfp4
iface ensfp4 inet manual

auto enqsfp1
iface enqsfp1 inet manual
        mtu 9100

auto enqsfp2
iface enqsfp2 inet manual
        mtu 9100

auto ensfp1
iface ensfp1 inet manual

auto ensfp2
iface ensfp2 inet manual

auto ensfp3
iface ensfp3 inet manual

auto bond0
iface bond0 inet manual
        bond-slaves ensfp1 ensfp2
        bond-miimon 100
        bond-mode 802.3ad
#LACP für Daten und MGMT

auto bond1
iface bond1 inet manual
        bond-slaves ensfp3 ensfp4
        bond-miimon 100
        bond-mode 802.3ad
#Corosync

auto bond2
iface bond2 inet manual
        bond-slaves enqsfp1 enqsfp2
        bond-miimon 100
        bond-mode 802.3ad
        bond-xmit-hash-policy layer3+4
        mtu 9100
#Ceph Cluster Netzwerk

auto vmbr0
iface vmbr0 inet manual
        bridge-ports bond0
        bridge-stp off
        bridge-fd 0

auto vmbr1
iface vmbr1 inet static
        address 10.10.10.21/24
        bridge-ports bond1
        bridge-stp off
        bridge-fd 0
#Corosync Untagged

auto vmbr2
iface vmbr2 inet static
        address 10.11.11.21/24
        bridge-ports bond2
        bridge-stp off
        bridge-fd 0
        mtu 9100
#Ceph Untagged

auto vlan9
iface vlan9 inet static
        address 172.20.9.21/24
        gateway 172.20.9.254
        vlan-raw-device vmbr0

source /etc/network/interfaces.d/*
 
Da haben wir vermutlich die Ursache.
Du hast 2 Fails im Setup. Bitte auf MTU 9000 setzen, und der Switch sollte dann Jumbo aktiv haben mit größeren MTU. Nimm da einfach das Maximum des Switches. Bei HPE Comware 10000, Aruba z.B. 9216 u.s.w.
Bitte für Ceph niemals eine Bridge bauen, denn die Linux Bridge limitiert hier im Bereich um 40GBit (unterschiedlich je nach CPU)
Gib die IP für Ceph direkt dem Bond Interface. Dann hast du auch volle Performance.
 
  • Like
Reactions: Johannes S