3 Node Cluster: Alle paar Tage fällt das GUI / Replication zu einem Node aus

Koda

New Member
Apr 15, 2024
7
1
3
Guten Morgen
Ich weiss aktuell nicht so recht, wo ich den Fehler suchen könnte. Es ist keine wirklich ausgefallene Umgebung, ich weiss aber nicht, ob ich in meiner Netzwerksegmentierung ein Fehler habe, oder es einen anderen Grund gibt.
Für das Netwerk habe ich UniFi Geräte.

Die Nodes sind dabei wie folgt eingerichtet:
1 x RJ45 1 Gbit (Port ist 2.5 Gbit, läuft aber auf Gbe) für das Management mit der VLAN 100. Keine anderen VLANs sind auf dem Port durchgelassen.
1 x RJ45 2.5 Gbit für Corosync mit VLAN 199 ohne weitere VLANs auf dem Port
1 x SFP+ für LAN mit allen VLANids
1 x SFP+ für WAN für einen Firewalltest auf VLAN10
Bis auf VLAN 10 vom Provider und VLAN 199 welches nur auf dem UniFi fürs direkte Routing eingerichtet ist sind die anderen VLANs über OPNsense.

Mein Interfaces
Code:
auto lo
iface lo inet loopback

iface enp89s0 inet manual

iface enp87s0 inet manual

iface enp2s0f0np0 inet manual

iface enp2s0f1np1 inet manual

auto vmbr0
iface vmbr0 inet static
        address 10.41.0.220/24
        gateway 10.41.0.1
        bridge-ports enp89s0
        bridge-stp off
        bridge-fd 0
#Management

auto vmbr1
iface vmbr1 inet static
        address 10.41.199.220/24
        bridge-ports enp87s0
        bridge-stp off
        bridge-fd 0
#Proxmox Corosync

auto vmbr2
iface vmbr2 inet manual
        bridge-ports enp2s0f1np1
        bridge-stp off
        bridge-fd 0
        bridge-vlan-aware yes
        bridge-vids 2-12 100-120 190-200
#LAN

auto vmbr2.198
iface vmbr2.198 inet static
        address 10.41.198.220/24
#Datenaustausch

auto vmbr3
iface vmbr3 inet manual
        bridge-ports enp2s0f0np0
        bridge-stp off
        bridge-fd 0
#WAN

source /etc/network/interfaces.d/*

Im grossen und ganzen Funktioniert es sehr gut. Es sind ein paar LXC Container mit Debian, das ein oder andere mit den Proxmox Helper Scripts und wenige LXC mit debian und docker (muss vielleicht später mal eine VM mit Portainer machen).
Alle paar Tage habe ich es (Die letzten zwei mal auf dem selben node, aber vorher auch schon ein anderer), dass mein GUI des Nodes nicht mehr erreichbar ist. Auch wenn ich von einem anderen Cluster darauf zugreifen möchte bricht er irgendwann ab. SSH ist dann auf den Node auch nicht möglich.
Der Zugriff auf alle LXC funktionieren soweit ohne bemerkbare Probleme. Diesmal hatte ich im Log noch ein Eintrag das der Gotify Zugriff auch in ein Timeout lief. Also sind wohl alle Interfaces davon betroffen das es wie überlastet wirkt. Auch gehen in den Momenten dann nach und nach die ZFS Replikationen nicht mehr.

Ich habe dann den Management Port am Switch kurz deaktiviert, und nach dem aktivieren ging nach wenigen Minuten wieder alles normal. Wenn ich das nicht mache, verharrt der Node in diesem Zustand.
Zeitlich war dieser Eintrag der Punkt an dem das System sich wieder normalisierte
Nov 28 09:01:20 pve01 kernel: igc 0000:59:00.0 enp89s0: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX

Für mich das auffallenste im Log
Nov 28 08:27:40 pve01 pvestatd[1745]: pbs01-nas: error fetching datastores - 500 Can't connect to 10.41.0.219:8007 (No route to host)

Dies ist mein Backup Server der aktuell mangels eines Gerätes als VM läuft, was eigentlich kein problem gemacht hat.
Der Zugriff auf den PBS funktioniert aber in dem Moment dann trotzdem ganz normal von den anderen Nodes, und auch das GUI kann ich aufrufen.
Ich werde nun sicher noch eiN Test machen, ob das System auch Probleme macht wenn der PBS nicht läuft und nicht eingebunden ist.

Aber vielleicht erkennt ja jemand, dass ich im Layout ein Fehler habe oder ein anderer Logeintrag auf ein Fehler deuten könnte.
Vielen Dank für jede Hilfe.

Während so einem Ausfall habe ich auch die anderen Nodes bzw. die laufenden Maschinen getestet. alles läuft ohne Einschränkung. Auch im Netzwerk generell hab eich keinerlei Probleme, und der Switch selber zeigt ebenfalls keine Sonderheiten in diesem Moment
 

Attachments

Last edited:
Hi Koda,
kurze Frage, kann dein Switch 2,5G ?
Nov 28 09:01:20 pve01 kernel: igc 0000:59:00.0 enp89s0: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX

Sonst würde ich tippen, dass das aushandeln der Netzwerkgeschwindigkeit nicht sauber funktioniert.
Da könntest du mit dem ethtool mal schauen, ob du die fest einstellen kannst.
Eine mögliche Ursache, für die Probleme wäre dann ein wackeliges/ leicht defektes Netzwerkkabel.

BG, Lucas


Nachtrag:
Das könntest du nach einem Ausfall auch via Bildschirm + Tastatur an dem jeweiligen Host prüfen.
 
Last edited:
Sonst würde ich tippen, dass das aushandeln der Netzwerkgeschwindigkeit nicht sauber funktioniert.
Danke für deine Antwort.
Ja das kann er. Der Switch zeigt auch an das er 2.5 ausgehandelt hat.
Aber die Angabe mit den 1000 ist wirklich speziell. Ich werde dem auch gleich nachgehen

Das mit dem Kabel wäre eine Möglichkeit, wobei ich vor kurzem die Kabel neu gemacht habe, weil ich zuerst nur UTP Kabel hatte und da hatte ich wirklich diverse Ausfälle sobald sich ein Kabel nur leicht bewegt hat. Mit den neuen gibt es da eigentlich kein Thema mehr, werde es aber sicherlich auch noch prüfen ob da doch was ist. Aber da es nach dem Reset geht glaube ich es aktuell weniger. Aber wer weiss :)

Edit: Mein Fehler. Hab das falsche Gerät geprüft. Das Management LAN aller Cluster habe ich auf dem Switch in den 1 GbE Port gesteckt, da ich davon ausging das der ja eh nicht viel Traffic verursacht und der Switch nicht alle mit 2.5 kann. Corosync ist aber auf 2.5 ausgehandelt. Das passt. Hab das im ersten Beitrag noch angepasst.
 
Last edited:
  • Like
Reactions: Johannes S