Unterbruch während Bootvorgang

Mar 1, 2022
21
0
6
30
Hallo zusammen,

wir haben zum wiederholten Male ein recht unangenehmes Phänomen beobachtet:

Proxmox1 wird gebootet, was bei Proxmox2 dazu führt, dass es einen kurzen Netzwerkunterbruch gibt.

Gibt es hier bekannte ähnliche Fälle? Was genau tut ein Proxmox wenn er bootet, was so ein Verhalten verursachen könnte?

Gruß und besten Dank!

Fabian
 
Außer dir wird hier niemand wissen, was Proxmox1 und Proxmox2 sind :) Ich nehme an zwei Nodes im Cluster?
Ein paar Informationen zu deinem Setup wären sicherlich hilfreich.
 
Bist du sicher das der zweite node echt nur das Netzwerk verliert und nicht rebootet weil er das Quorum verloren hat?
 
Ich führe das mal ein wenig aus.

Wir haben derzeit 5 Cluster im Einsatz.

Bis jetzt ist uns zwei mal passiert das wenn wir einen Node rebooten auf einmal das ganze Netz auf allen Clustern hingen.

Das ganze ist jetzt auf zwei verschiedenen Nodes in Verschiedenen Clustern passiert.

Da wir derzeit ein wenig im Dunkeln fischen was es sein könnte was ein Proxmox boot so viel Netz Last verursacht das es in allen 5 Clustern unterbrüche gibt. Das muss ja irgendein broadcast sein der den Zentralen Switch Lahm legt oder ähnliches.

Gibt es hier etwas, was ein Proxmox beim booten macht, was so viel Netzlast verursacht ?
Wir setzten hier noch CEPH auf den Nodes ein, die eigentlich über einen Dedizierten Switch laufen, das heißt das Ceph selbst würde ich ausschließen.

Bzw beim neuen Cluster wo das passiert ist, ist das Ceph sogar einfach Queer verkabelt und läuft gar nicht mehr über einen Switch.

Lieben Gruß
Chris
 
  • Like
Reactions: FabianRn
Beispiel Config des Netzwerkes

Code:
auto lo
iface lo inet loopback

iface enp1s0f1np1 inet manual

iface enp67s0f0np0 inet manual

iface enp67s0f1np1 inet manual

iface enx7640941e82bb inet manual

iface eth0 inet manual

iface eno1 inet manual


iface enp129s0f0np0 inet manual


iface enp129s0f1np1 inet manual


iface enp1s0f0np0 inet manual


auto bond0
iface bond0 inet manual
        bond-slaves enp67s0f0np0 enp67s0f1np1 eth0 eno1
        bond-miimon 100
        bond-mode 802.3ad
        bridge-vids 2-4094
        bond-xmit-hash-policy layer3+4

auto vmbr0
iface vmbr0 inet static
        address 10.0.50.1/16
        gateway 10.0.254.254
        bridge-ports bond0
        bridge-stp off
        bridge-fd 0
        bridge-vlan-aware yes
        bridge-vlds 2-4094

auto bond1
iface bond1 inet static
        address 192.168.0.50/24
        bond-slaves enp129s0f0np0 enp1s0f1np1
        bond-miimon 100
        bond-mode balance-rr
        mtu 9000
        up ip route add 192.168.0.48/32 dev bond1
        down ip route del 192.168.0.48/32
#connected to sm48

auto bond2
iface bond2 inet static
        address 192.168.0.50/24
        bond-slaves enp129s0f1np1 enp1s0f0np0
        bond-miimon 100
        bond-mode balance-rr
        mtu 9000
        up ip route add 192.168.0.49/32 dev bond2
        down ip route del 192.168.0.49/32
#connected to sm49
 
Ich führe das mal ein wenig aus.

Wir haben derzeit 5 Cluster im Einsatz.

Bis jetzt ist uns zwei mal passiert das wenn wir einen Node rebooten auf einmal das ganze Netz auf allen Clustern hingen.

Das ganze ist jetzt auf zwei verschiedenen Nodes in Verschiedenen Clustern passiert.

Da wir derzeit ein wenig im Dunkeln fischen was es sein könnte was ein Proxmox boot so viel Netz Last verursacht das es in allen 5 Clustern unterbrüche gibt. Das muss ja irgendein broadcast sein der den Zentralen Switch Lahm legt oder ähnliches.

Gibt es hier etwas, was ein Proxmox beim booten macht, was so viel Netzlast verursacht ?
Wir setzten hier noch CEPH auf den Nodes ein, die eigentlich über einen Dedizierten Switch laufen, das heißt das Ceph selbst würde ich ausschließen.

Bzw beim neuen Cluster wo das passiert ist, ist das Ceph sogar einfach Queer verkabelt und läuft gar nicht mehr über einen Switch.

Lieben Gruß
Chris
Danke dir! :cool:
 
Beispiel Config des Netzwerkes

Code:
auto lo
iface lo inet loopback

iface enp1s0f1np1 inet manual

iface enp67s0f0np0 inet manual

iface enp67s0f1np1 inet manual

iface enx7640941e82bb inet manual

iface eth0 inet manual

iface eno1 inet manual


iface enp129s0f0np0 inet manual


iface enp129s0f1np1 inet manual


iface enp1s0f0np0 inet manual


auto bond0
iface bond0 inet manual
        bond-slaves enp67s0f0np0 enp67s0f1np1 eth0 eno1
        bond-miimon 100
        bond-mode 802.3ad
        bridge-vids 2-4094
        bond-xmit-hash-policy layer3+4

auto vmbr0
iface vmbr0 inet static
        address 10.0.50.1/16
        gateway 10.0.254.254
        bridge-ports bond0
        bridge-stp off
        bridge-fd 0
        bridge-vlan-aware yes
        bridge-vlds 2-4094

auto bond1
iface bond1 inet static
        address 192.168.0.50/24
        bond-slaves enp129s0f0np0 enp1s0f1np1
        bond-miimon 100
        bond-mode balance-rr
        mtu 9000
        up ip route add 192.168.0.48/32 dev bond1
        down ip route del 192.168.0.48/32
#connected to sm48

auto bond2
iface bond2 inet static
        address 192.168.0.50/24
        bond-slaves enp129s0f1np1 enp1s0f0np0
        bond-miimon 100
        bond-mode balance-rr
        mtu 9000
        up ip route add 192.168.0.49/32 dev bond2
        down ip route del 192.168.0.49/32
#connected to sm49
Hallo,

wie werden denn die Bonds verwendet? bond0/vmbr0 wird wohl das Netzwerk für die VMs/Proxmox Management sein. Für was werden bond1 und bond2 genutzt?

Eigentlich sollte ein Proxmox-Cluster ein eigenes 'Subnetz' (besser: zwei) für die Clusterkommunikation per Corosync haben.

Viele Grüße,
Benedikt
 
Hi Benedikt,
danke für deine Antwort.
Genau, das vmbr0 ist für den Corosync als auch für die Kommunikation der VMs.
bond1/bond2 sind für das Ceph direkt Verbindungen zu den jeweils anderen 2 Nodes. Also auch ein Physikalisch getrenntes Netzwerk,

Grüße
Chris
 
Corosync sollte eigentlich auch ein eigenes Netz/NIC haben, dass da VM Kommunikation nicht die Latenz soweit einbrechen lassen kann, dass da die Clusterkommunikation zusammenbricht und dir dann wegen Quorum-Verlust die Nodes rebooten.
 
Das kann man sicherlich noch verbessern. Das ist aber derzeit gar nicht unser Problem, das Problem ist / war, das bei einem Boot von einem Node, das ganze Netz hing. Und das ist uns leider schon 2 mal passiert bei komplett unterschiedlichen Nodes. Aus unterschiedlichen Clustern. Wir haben nur derzeit Probleme überhaupt auf die Spur zu kommen woran es liegen könnte.
 
koenntet ihr wenn das problem auftritt bitte folgende infos zusammentragen und posten?

- 'pveversion -v' von allen nodes
- corosync.conf inhalt
- /etc/network/interfaces inhalt von allen nodes
- 'journalctl -u corosync -u pve-cluster --since REPLACEME --until REPLACEME' von allen nodes (REPLACEME entsprechend ersetzen damit der gesamte zeitraum + ein bisschen davor/danach umfasst ist)
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!