Nabend,
ich habe meine Hausinstallation als 3-Node Cluster umgebaut und treffe Probleme, die ich nicht erwartet habe: mit dem großen managed Switch (HPE 1820) kriege ich den Cluster nicht am Laufen, mit einem billigen unmanaged 0815-Switch geht es... fast!
Die Umgebung:
- 3 Nodes mit jeweils 1 USB-LAN Adapter als NIC (Delock 66039 - liefen bis jetzt problemlos mit PVE für "normale" Netzwerkdienste) für Corosync
- Netzwerk für Corosync ist separat von den anderen Netzwerke
- Corosync ist nicht als VLAN in den PVEs configuriert, läuft untagged als VLAN10 (Ports vom großen Switch für VLAN10 konfiguriert) im Switch
- alle pingen sich gegenseitig und verbinden sich SSH auch gegenseitig
- gar kein Ceph
- alles soll 1Gbit-fähig sein
Was passiert (grob): ich verliere die Verbindung zum Cluster ein paar Sekunden nachdem die PVEs hochgefahren sind.
Das eine PVE schreibt seitenweise
in den logs,
Das Zweite ist nicht so eindeutig, aber es gibt in regelmäßigen Abstände
zu lesen
Das Dritte komme ich (bis auf SSH) gar nicht darauf.
Ich fahre das ganze per SSH runter, stöpsle die 3 NICS in den billigen Switch ein, fahre die PVEs hoch und der Cluster ist sofort da, alles ist grün und ich kann keine Probleme aus den Logs erkennen.
Was ich vermute, gesucht und gefunden habe:
/etc/pve/corosync.conf:
/etc/network/interfaces
Das Phänomen des 3. Nodes: dieser Node (hat z.Z. keine VM oder CT) ist nach ein paar Minuten/Stunden nicht mehr in der Lage weder die Anderen zu pingen, noch gepingt zu werden. Aber sich selbst geht. In den Logs sehe ich nichts verdächtiges und plötzlich ist der Quorum verloren.
Sein iplink:
Ich muss dann den Node neustarten.
Edit: und genau jetzt geht es trotz Neustart nicht mehr!!
=> könnte jemand mir, was dazu sagen? Sind solche Netzwerk-adapter überhaupt für Corosync geeignet?
Danke.
Gruß Arnaud
ich habe meine Hausinstallation als 3-Node Cluster umgebaut und treffe Probleme, die ich nicht erwartet habe: mit dem großen managed Switch (HPE 1820) kriege ich den Cluster nicht am Laufen, mit einem billigen unmanaged 0815-Switch geht es... fast!
Die Umgebung:
- 3 Nodes mit jeweils 1 USB-LAN Adapter als NIC (Delock 66039 - liefen bis jetzt problemlos mit PVE für "normale" Netzwerkdienste) für Corosync
- Netzwerk für Corosync ist separat von den anderen Netzwerke
- Corosync ist nicht als VLAN in den PVEs configuriert, läuft untagged als VLAN10 (Ports vom großen Switch für VLAN10 konfiguriert) im Switch
- alle pingen sich gegenseitig und verbinden sich SSH auch gegenseitig
- gar kein Ceph
- alles soll 1Gbit-fähig sein
Was passiert (grob): ich verliere die Verbindung zum Cluster ein paar Sekunden nachdem die PVEs hochgefahren sind.
Das eine PVE schreibt seitenweise
Code:
[TOTEM ] Retransmit List: 14 15 1c 1d 1f 20 23 24
Das Zweite ist nicht so eindeutig, aber es gibt in regelmäßigen Abstände
Code:
TOTEM ] A new membership (1.2f6) was formed. Members left: 2 3
Das Dritte komme ich (bis auf SSH) gar nicht darauf.
Ich fahre das ganze per SSH runter, stöpsle die 3 NICS in den billigen Switch ein, fahre die PVEs hoch und der Cluster ist sofort da, alles ist grün und ich kann keine Probleme aus den Logs erkennen.
Was ich vermute, gesucht und gefunden habe:
- "TOTEM ] Retransmit" deutet auf Netzwerkprobleme auf (ach nein!!) - schlechte Verbindung
- "IGMP snooping" vom Switch kann Probleme machen. Bei mir ist es deaktiviert, so wie alle andere "Sicherheitsfeatures"
- MPU ist oft im Spiel: Da ist alles bei mir original. D.h. 1500 für die Interfaces und 1518 im (großen) Switch
- Ping-Zeiten: ca. 3-4ms mit dem billigen Switch und ca. 0,5ms kürzer mit dem Großen
- Einzelcast - Multicast ????
/etc/pve/corosync.conf:
Code:
logging {
debug: off
to_syslog: yes
}
nodelist {
node {
name: pve-a320m
nodeid: 3
quorum_votes: 1
ring0_addr: 192.168.90.3
}
node {
name: pve-c2550
nodeid: 1
quorum_votes: 1
ring0_addr: 192.168.90.1
}
node {
name: pve-optiplex3020
nodeid: 2
quorum_votes: 1
ring0_addr: 192.168.90.2
}
}
quorum {
provider: corosync_votequorum
}
totem {
cluster_name: cluster-GuedeL
config_version: 3
interface {
linknumber: 0
}
ip_version: ipv4-6
link_mode: passive
secauth: on
version: 2
}
/etc/network/interfaces
Code:
auto lo
iface lo inet loopback
iface enp7s0 inet manual
iface enp8s0 inet manual
iface enx00133bb2d0c9 inet manual
iface enx00133bace4f4 inet manual
auto vmbr0
iface vmbr0 inet static
address 192.168.20.156/24
gateway 192.168.20.70
bridge-ports enp7s0
bridge-stp off
bridge-fd 0
#LAN
auto vmbr1
iface vmbr1 inet manual
bridge-ports enp8s0
bridge-stp off
bridge-fd 0
#WAN
auto vmbr2
iface vmbr2 inet manual
bridge-ports enx00133bb2d0c9
bridge-stp off
bridge-fd 0
#DMZ1
auto vmbr3
iface vmbr3 inet static
address 192.168.90.1/24
bridge-ports enx00133bace4f4
bridge-stp off
bridge-fd 0
#corosync
Das Phänomen des 3. Nodes: dieser Node (hat z.Z. keine VM oder CT) ist nach ein paar Minuten/Stunden nicht mehr in der Lage weder die Anderen zu pingen, noch gepingt zu werden. Aber sich selbst geht. In den Logs sehe ich nichts verdächtiges und plötzlich ist der Quorum verloren.
Sein iplink:
Code:
ip link show
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: enp4s0: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN mode DEFAULT group default qlen 1000
link/ether 00:blabla4f brd ff:ff:ff:ff:ff:ff
3: enp27s0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr0 state UP mode DEFAULT group default qlen 1000
link/ether 30:blabla:c2 brd ff:ff:ff:ff:ff:ff
4: enx00133bace58a: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast master vmbr3 state UP mode DEFAULT group default qlen 1000
link/ether 00:blabla:8a brd ff:ff:ff:ff:ff:ff
5: vmbr0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP mode DEFAULT group default qlen 1000
link/ether 30:blabla:c2 brd ff:ff:ff:ff:ff:ff
6: vmbr3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP mode DEFAULT group default qlen 1000
link/ether 00:blabla:8a brd ff:ff:ff:ff:ff:ff
Ich muss dann den Node neustarten.
Edit: und genau jetzt geht es trotz Neustart nicht mehr!!
=> könnte jemand mir, was dazu sagen? Sind solche Netzwerk-adapter überhaupt für Corosync geeignet?
Danke.
Gruß Arnaud
Last edited: