Hallo,
bei meinem 3-Node Cluster habe ich am Wochenende Updates durchgeführt, aktueller Patchlevel ist 7.4-17.
Gestern habe ich gesehen, dass die VMs im Node 1 des Clusters keine Internetverbindung mehr besitzen.
Die per VLAN getrennte Ceph-Schnittstelle und OSD-Schnittstelle hatten keine Probleme.
Sämtliche VMs auf Node 2 und Node 3 hatten zu der Zeit keine Probleme. Nach einem Neustart von Node 1 war das Problem dort erst einmal behoben.
Bis das gleiche Problem ist heute wieder aufgetaucht bei einem zweiten Node desselben Clusters.
Die Topologie der einzelnen Nodes sieht folgendermaßen aus:
Nodes besitzen zwei Netzwerkadapter und sind damit an Switches angebunden, die per MLAG verbunden sind.
Die Netzwerkkarten im Node sehen so aus:
Netzwerkports - ens0 und ens1
bond0 - mit Ports/Slaves ens0 und ens1 (Bond-Modus LACP 802.3ad)
vmbr0 - Bridge mit bond0 (eingetragenes Gateway zur Firewall)
vmbr0.10 - VLAN für Ceph
vmbr0.11 - VLAN für OSD
Über vmbr0 kommunizieren die VMs mit der Firewall zum Internet.
Betroffen war nur der eine Cluster, andere Cluster mit gleicher Konfiguration sind von dem Fehler nicht betroffen.
Woran kann es liegen, bzw. was ist die beste Strategie so einen Fehler einzugrenzen?
bei meinem 3-Node Cluster habe ich am Wochenende Updates durchgeführt, aktueller Patchlevel ist 7.4-17.
Gestern habe ich gesehen, dass die VMs im Node 1 des Clusters keine Internetverbindung mehr besitzen.
Die per VLAN getrennte Ceph-Schnittstelle und OSD-Schnittstelle hatten keine Probleme.
Sämtliche VMs auf Node 2 und Node 3 hatten zu der Zeit keine Probleme. Nach einem Neustart von Node 1 war das Problem dort erst einmal behoben.
Bis das gleiche Problem ist heute wieder aufgetaucht bei einem zweiten Node desselben Clusters.
Die Topologie der einzelnen Nodes sieht folgendermaßen aus:
Nodes besitzen zwei Netzwerkadapter und sind damit an Switches angebunden, die per MLAG verbunden sind.
Die Netzwerkkarten im Node sehen so aus:
Netzwerkports - ens0 und ens1
bond0 - mit Ports/Slaves ens0 und ens1 (Bond-Modus LACP 802.3ad)
vmbr0 - Bridge mit bond0 (eingetragenes Gateway zur Firewall)
vmbr0.10 - VLAN für Ceph
vmbr0.11 - VLAN für OSD
Über vmbr0 kommunizieren die VMs mit der Firewall zum Internet.
Betroffen war nur der eine Cluster, andere Cluster mit gleicher Konfiguration sind von dem Fehler nicht betroffen.
Woran kann es liegen, bzw. was ist die beste Strategie so einen Fehler einzugrenzen?