Kuriosität MTU 9000

aschiefer

Member
Dec 5, 2019
15
1
23
Cologne, Germany
www.vision4it.de
Hallo Zusammen,

wir haben 8 Proxmox Server 8.1.1 mit Ceph 18.2.2 reef und Kernel 6.5.13-5-pve.

Die Änderung der MTU auf 9000 für das Corosync Netzwerk lief problemlos, das Einzige was uns verwundert hat
ist das wir alle Ceph OSD einmal neustarten mussten, da bei allen Slow Ops gemeldet wurden.
Wir haben nur das Corosync auf MTU 9000 gestellt nicht eines der Ceph Netze - ja, wir stellen das Ceph-Sync Netz noch um auf MTU 9000 :)
Warum passiert so etwas?
Das Ceph sollte doch lediglich über seine beiden Netze kommunizieren und was hat das Corosync LAN damit zu tun?

Wo ist der Denkfehler?

Vielen Dank
Andreas

Hier noch ein paar Configs:

corosync.conf
Code:
logging {
  debug: off
  to_syslog: yes
}

nodelist {
  node {
    name: pve01-rz
    nodeid: 1
    quorum_votes: 1
    ring0_addr: 10.7.230.51
  }
  node {
    name: pve02-rz
    nodeid: 2
    quorum_votes: 1
    ring0_addr: 10.7.230.52
  }
  node {
    name: pve03-rz
    nodeid: 3
    quorum_votes: 1
    ring0_addr: 10.7.230.53
  }
  node {
    name: pve04-rz
    nodeid: 4
    quorum_votes: 1
    ring0_addr: 10.7.230.54
  }
  node {
    name: pve05-rz
    nodeid: 5
    quorum_votes: 1
    ring0_addr: 10.7.230.55
  }
  node {
    name: pve06-rz
    nodeid: 6
    quorum_votes: 1
    ring0_addr: 10.7.230.56
  }
  node {
    name: pve07-rz
    nodeid: 7
    quorum_votes: 1
    ring0_addr: 10.7.230.57
  }
  node {
    name: pve08-rz
    nodeid: 8
    quorum_votes: 1
    ring0_addr: 10.7.230.58
  }
}

quorum {
  provider: corosync_votequorum
}

totem {
  cluster_name: maincluster
  config_version: 27
  interface {
    linknumber: 0
  }
  ip_version: ipv4-6
  link_mode: passive
  secauth: on
  version: 2
}

ceph:conf:
Code:
[global]
    auth_client_required = none
    auth_cluster_required = none
    auth_service_required = none
    auth_supported = none
    cluster_network = 10.7.220.0/24
    fsid = dc2076bc-2c06-4301-96e5-a54e9c10d348
    mon_allow_pool_delete = true
    mon_host = 192.168.123.11 192.168.123.13 192.168.123.10 192.168.123.16 192.168.123.17
    ms_bind_ipv4 = true
    ms_bind_ipv6 = false
    public_network = 192.168.123.0/24

[client]
    keyring = /etc/pve/priv/$cluster.$name.keyring

[client.crash]
    keyring = /etc/pve/ceph/$cluster.$name.keyring

[mon.pve01-rz]
    public_addr = 192.168.123.10

[mon.pve02-rz]
    public_addr = 192.168.123.11

[mon.pve03-rz]
    public_addr = 192.168.123.13

[mon.pve06-rz]
    public_addr = 192.168.123.16

[mon.pve07-rz]
    public_addr = 192.168.123.17

/etc/network/interfaces:
Code:
auto lo
iface lo inet loopback

auto eno1
iface eno1 inet manual
#off

iface eno2 inet manual
#1G off_Test9000

auto ens15f0
iface ens15f0 inet static
        address 192.168.123.11/24
#Ceph Public IP 10G Port 12

auto ens15f1
iface ens15f1 inet static
        address 10.7.220.21/24
#Ceph Sync 10G Port 44

auto enp2s0f0
iface enp2s0f0 inet manual
#Proxmox Public 10G Port 46

auto enp2s0f1
iface enp2s0f1 inet static
        address 10.7.230.52/24
        mtu 9000
#Proxmox Corosync 10G Port 45

auto vmbr0
iface vmbr0 inet static
        address 10.7.240.12/24
        gateway 10.7.240.1
        bridge-ports enp2s0f0
        bridge-stp off
        bridge-fd 0
        bridge-vlan-aware yes
        bridge-vids 2-4094
#Proxmox Public IP

ethtool enp2s0f1:
Code:
Settings for enp2s0f1:
        Supported ports: [ TP ]
        Supported link modes:   100baseT/Full
                                1000baseT/Full
                                10000baseT/Full
        Supported pause frame use: Symmetric
        Supports auto-negotiation: Yes
        Supported FEC modes: Not reported
        Advertised link modes:  100baseT/Full
                                1000baseT/Full
                                10000baseT/Full
        Advertised pause frame use: Symmetric
        Advertised auto-negotiation: Yes
        Advertised FEC modes: Not reported
        Speed: 10000Mb/s
        Duplex: Full
        Auto-negotiation: on
        Port: Twisted Pair
        PHYAD: 0
        Transceiver: internal
        MDI-X: Unknown
        Supports Wake-on: d
        Wake-on: d
        Current message level: 0x00000007 (7)
                               drv probe link
        Link detected: yes
 
ceph:conf:
Code:
[global]
    auth_client_required = none
    auth_cluster_required = none
    auth_service_required = none
    auth_supported = none
    cluster_network = 10.7.220.0/24
    fsid = dc2076bc-2c06-4301-96e5-a54e9c10d348
    mon_allow_pool_delete = true
    mon_host = 192.168.123.11 192.168.123.13 192.168.123.10 192.168.123.16 192.168.123.17
    ms_bind_ipv4 = true
    ms_bind_ipv6 = false
    public_network = 192.168.123.0/24

[client]
    keyring = /etc/pve/priv/$cluster.$name.keyring

[client.crash]
    keyring = /etc/pve/ceph/$cluster.$name.keyring

[mon.pve01-rz]
    public_addr = 192.168.123.10

[mon.pve02-rz]
    public_addr = 192.168.123.11

[mon.pve03-rz]
    public_addr = 192.168.123.13

[mon.pve06-rz]
    public_addr = 192.168.123.16

[mon.pve07-rz]
    public_addr = 192.168.123.17
Steht doch da:
cluster_network = 10.7.220.0/24 bedeutet, das Backend des Ceph schickst du über dein Corosync LAN.
 
Hast natürlich recht. Ich verstehe aber auch nicht, warum du für Corosync Jumbo Frames aktivierst. Da geht doch eh kaum Traffic drüber.
Von PVE Seite aus ist kein Problem zu erkennen, eventuell hast du die Ports auf dem Switch noch nicht auf Spanning Tree Portfast (edge) gesetzt und STP hat unter umständen ausgelöst.
 
Sitzt das Netz in einem VLAN? Falls ja, auf der Switch-Seite die MTU entsprechend angepasst (9220 tagged, 9216 untagged)?
 
Hast natürlich recht. Ich verstehe aber auch nicht, warum du für Corosync Jumbo Frames aktivierst. Da geht doch eh kaum Traffic drüber.
Von PVE Seite aus ist kein Problem zu erkennen, eventuell hast du die Ports auf dem Switch noch nicht auf Spanning Tree Portfast (edge) gesetzt und STP hat unter umständen ausgelöst.
STP steht auf edge. MTU steht auf max 10.000. Laut den Firewall Logs kein STP
 
Ich glaube dann musst du mal etwas tiefer in den Logs forschen, ob da eventuell eine Ursache steht. Rein vom Setup erklärt sich das Phänomen nicht.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!