Guten Morgen
Ich weiss aktuell nicht so recht, wo ich den Fehler suchen könnte. Es ist keine wirklich ausgefallene Umgebung, ich weiss aber nicht, ob ich in meiner Netzwerksegmentierung ein Fehler habe, oder es einen anderen Grund gibt.
Für das Netwerk habe ich UniFi Geräte.
Die Nodes sind dabei wie folgt eingerichtet:
1 x RJ45 1 Gbit (Port ist 2.5 Gbit, läuft aber auf Gbe) für das Management mit der VLAN 100. Keine anderen VLANs sind auf dem Port durchgelassen.
1 x RJ45 2.5 Gbit für Corosync mit VLAN 199 ohne weitere VLANs auf dem Port
1 x SFP+ für LAN mit allen VLANids
1 x SFP+ für WAN für einen Firewalltest auf VLAN10
Bis auf VLAN 10 vom Provider und VLAN 199 welches nur auf dem UniFi fürs direkte Routing eingerichtet ist sind die anderen VLANs über OPNsense.
Mein Interfaces
Im grossen und ganzen Funktioniert es sehr gut. Es sind ein paar LXC Container mit Debian, das ein oder andere mit den Proxmox Helper Scripts und wenige LXC mit debian und docker (muss vielleicht später mal eine VM mit Portainer machen).
Alle paar Tage habe ich es (Die letzten zwei mal auf dem selben node, aber vorher auch schon ein anderer), dass mein GUI des Nodes nicht mehr erreichbar ist. Auch wenn ich von einem anderen Cluster darauf zugreifen möchte bricht er irgendwann ab. SSH ist dann auf den Node auch nicht möglich.
Der Zugriff auf alle LXC funktionieren soweit ohne bemerkbare Probleme. Diesmal hatte ich im Log noch ein Eintrag das der Gotify Zugriff auch in ein Timeout lief. Also sind wohl alle Interfaces davon betroffen das es wie überlastet wirkt. Auch gehen in den Momenten dann nach und nach die ZFS Replikationen nicht mehr.
Ich habe dann den Management Port am Switch kurz deaktiviert, und nach dem aktivieren ging nach wenigen Minuten wieder alles normal. Wenn ich das nicht mache, verharrt der Node in diesem Zustand.
Zeitlich war dieser Eintrag der Punkt an dem das System sich wieder normalisierte
Nov 28 09:01:20 pve01 kernel: igc 0000:59:00.0 enp89s0: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX
Für mich das auffallenste im Log
Nov 28 08:27:40 pve01 pvestatd[1745]: pbs01-nas: error fetching datastores - 500 Can't connect to 10.41.0.219:8007 (No route to host)
Dies ist mein Backup Server der aktuell mangels eines Gerätes als VM läuft, was eigentlich kein problem gemacht hat.
Der Zugriff auf den PBS funktioniert aber in dem Moment dann trotzdem ganz normal von den anderen Nodes, und auch das GUI kann ich aufrufen.
Ich werde nun sicher noch eiN Test machen, ob das System auch Probleme macht wenn der PBS nicht läuft und nicht eingebunden ist.
Aber vielleicht erkennt ja jemand, dass ich im Layout ein Fehler habe oder ein anderer Logeintrag auf ein Fehler deuten könnte.
Vielen Dank für jede Hilfe.
Während so einem Ausfall habe ich auch die anderen Nodes bzw. die laufenden Maschinen getestet. alles läuft ohne Einschränkung. Auch im Netzwerk generell hab eich keinerlei Probleme, und der Switch selber zeigt ebenfalls keine Sonderheiten in diesem Moment
Ich weiss aktuell nicht so recht, wo ich den Fehler suchen könnte. Es ist keine wirklich ausgefallene Umgebung, ich weiss aber nicht, ob ich in meiner Netzwerksegmentierung ein Fehler habe, oder es einen anderen Grund gibt.
Für das Netwerk habe ich UniFi Geräte.
Die Nodes sind dabei wie folgt eingerichtet:
1 x RJ45 1 Gbit (Port ist 2.5 Gbit, läuft aber auf Gbe) für das Management mit der VLAN 100. Keine anderen VLANs sind auf dem Port durchgelassen.
1 x RJ45 2.5 Gbit für Corosync mit VLAN 199 ohne weitere VLANs auf dem Port
1 x SFP+ für LAN mit allen VLANids
1 x SFP+ für WAN für einen Firewalltest auf VLAN10
Bis auf VLAN 10 vom Provider und VLAN 199 welches nur auf dem UniFi fürs direkte Routing eingerichtet ist sind die anderen VLANs über OPNsense.
Mein Interfaces
Code:
auto lo
iface lo inet loopback
iface enp89s0 inet manual
iface enp87s0 inet manual
iface enp2s0f0np0 inet manual
iface enp2s0f1np1 inet manual
auto vmbr0
iface vmbr0 inet static
address 10.41.0.220/24
gateway 10.41.0.1
bridge-ports enp89s0
bridge-stp off
bridge-fd 0
#Management
auto vmbr1
iface vmbr1 inet static
address 10.41.199.220/24
bridge-ports enp87s0
bridge-stp off
bridge-fd 0
#Proxmox Corosync
auto vmbr2
iface vmbr2 inet manual
bridge-ports enp2s0f1np1
bridge-stp off
bridge-fd 0
bridge-vlan-aware yes
bridge-vids 2-12 100-120 190-200
#LAN
auto vmbr2.198
iface vmbr2.198 inet static
address 10.41.198.220/24
#Datenaustausch
auto vmbr3
iface vmbr3 inet manual
bridge-ports enp2s0f0np0
bridge-stp off
bridge-fd 0
#WAN
source /etc/network/interfaces.d/*
Im grossen und ganzen Funktioniert es sehr gut. Es sind ein paar LXC Container mit Debian, das ein oder andere mit den Proxmox Helper Scripts und wenige LXC mit debian und docker (muss vielleicht später mal eine VM mit Portainer machen).
Alle paar Tage habe ich es (Die letzten zwei mal auf dem selben node, aber vorher auch schon ein anderer), dass mein GUI des Nodes nicht mehr erreichbar ist. Auch wenn ich von einem anderen Cluster darauf zugreifen möchte bricht er irgendwann ab. SSH ist dann auf den Node auch nicht möglich.
Der Zugriff auf alle LXC funktionieren soweit ohne bemerkbare Probleme. Diesmal hatte ich im Log noch ein Eintrag das der Gotify Zugriff auch in ein Timeout lief. Also sind wohl alle Interfaces davon betroffen das es wie überlastet wirkt. Auch gehen in den Momenten dann nach und nach die ZFS Replikationen nicht mehr.
Ich habe dann den Management Port am Switch kurz deaktiviert, und nach dem aktivieren ging nach wenigen Minuten wieder alles normal. Wenn ich das nicht mache, verharrt der Node in diesem Zustand.
Zeitlich war dieser Eintrag der Punkt an dem das System sich wieder normalisierte
Nov 28 09:01:20 pve01 kernel: igc 0000:59:00.0 enp89s0: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX
Für mich das auffallenste im Log
Nov 28 08:27:40 pve01 pvestatd[1745]: pbs01-nas: error fetching datastores - 500 Can't connect to 10.41.0.219:8007 (No route to host)
Dies ist mein Backup Server der aktuell mangels eines Gerätes als VM läuft, was eigentlich kein problem gemacht hat.
Der Zugriff auf den PBS funktioniert aber in dem Moment dann trotzdem ganz normal von den anderen Nodes, und auch das GUI kann ich aufrufen.
Ich werde nun sicher noch eiN Test machen, ob das System auch Probleme macht wenn der PBS nicht läuft und nicht eingebunden ist.
Aber vielleicht erkennt ja jemand, dass ich im Layout ein Fehler habe oder ein anderer Logeintrag auf ein Fehler deuten könnte.
Vielen Dank für jede Hilfe.
Während so einem Ausfall habe ich auch die anderen Nodes bzw. die laufenden Maschinen getestet. alles läuft ohne Einschränkung. Auch im Netzwerk generell hab eich keinerlei Probleme, und der Switch selber zeigt ebenfalls keine Sonderheiten in diesem Moment
Attachments
Last edited: