[SOLVED] Proxmox VE 7.4-17 - Verlust der Internetverbindung von Node in Cluster

Apr 19, 2022
29
4
8
Hallo,

bei meinem 3-Node Cluster habe ich am Wochenende Updates durchgeführt, aktueller Patchlevel ist 7.4-17.
Gestern habe ich gesehen, dass die VMs im Node 1 des Clusters keine Internetverbindung mehr besitzen.
Die per VLAN getrennte Ceph-Schnittstelle und OSD-Schnittstelle hatten keine Probleme.

Sämtliche VMs auf Node 2 und Node 3 hatten zu der Zeit keine Probleme. Nach einem Neustart von Node 1 war das Problem dort erst einmal behoben.
Bis das gleiche Problem ist heute wieder aufgetaucht bei einem zweiten Node desselben Clusters.

Die Topologie der einzelnen Nodes sieht folgendermaßen aus:
Nodes besitzen zwei Netzwerkadapter und sind damit an Switches angebunden, die per MLAG verbunden sind.

Die Netzwerkkarten im Node sehen so aus:

Netzwerkports - ens0 und ens1
bond0 - mit Ports/Slaves ens0 und ens1 (Bond-Modus LACP 802.3ad)
vmbr0 - Bridge mit bond0 (eingetragenes Gateway zur Firewall)
vmbr0.10 - VLAN für Ceph
vmbr0.11 - VLAN für OSD

Über vmbr0 kommunizieren die VMs mit der Firewall zum Internet.

Betroffen war nur der eine Cluster, andere Cluster mit gleicher Konfiguration sind von dem Fehler nicht betroffen.
Woran kann es liegen, bzw. was ist die beste Strategie so einen Fehler einzugrenzen?
 
Hi,
1. wenn du MLAG und keinen Properitären Ableger mancher Hersteller nutzt, funktioniert LACP nicht. MLAG kann nur statische LAGs.
2. Ceph und Produktivtraffic sowie Corosync auf eine Netzwerkverbindung zu legen ist nicht nur nicht optimal sondern fast fahrlässig.

Das ganze hat aber eigentlich nichts mit der Verbindung zum Gateway zu tun. Kannst du das Gateway pingen von den VMs?

Je nach Switchhersteller und Konfiguration würde ich auch schnell LACP weg konfigurieren.
 
  • Like
Reactions: Sebi-S
Moin Falk,

inzwischen ist das Problem nicht mehr aufgetreten, nachdem wir einen Downgrade auf die vorherige Linux Kernelversion gemacht haben.

Noch ein Hinweis zur Topologie: Ceph- Produktiv- und Corosynctraffic liegen zwar auf denselben physischen Netzwerkverbindungen (redundant), sind aber logisch über die VLANs getrennt. Performancetechnisch hatte ich da nie Probleme bei dem eingesetzten 100G Switch.
 
Dann check bitte noch einmal die Switchkonfiguration. Ist das ein echtes MLAG oder ein anderes ähnliches Protokoll? Der 6er Kernel verhällt sich etwas mehr Konform zu den RFC's und wenn ihr LACP auf MLAG nutzt, wundert mich das Problem nicht wirklich beim 6er Kernel.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!