Hallo,
wir betreiben ein großes Cluster mit 41 Nodes (Prozessor: AMD EPYC 7402P) sowie separate 2x 10G NIC für ceph + Cluster-Traffic (corosync etc).
Cluster, Ceph usw ist alles abgetrennt vom normalen Traffic der VMs. Wir nehmen zwei redundante Switche (Arista) für ceph und zwei redundante Switche (Juniper) für die VMs um nach außen zu verbinden.
Leider passiert es ab und zu, dass nach einem Neustart einer großen VM (>100GB Ram), die 10G Netzwerk Karte für ceph + corosync aussteigt:
[Sat Mar 20 10:15:03 2021] vmbr0: port 5(tap148i0) entered disabled state
[Sat Mar 20 10:15:04 2021] fwbr148i1: port 2(tap148i1) entered disabled state
[Sat Mar 20 10:15:04 2021] fwbr148i1: port 1(fwln148i1) entered disabled state
[Sat Mar 20 10:15:04 2021] vmbr1: port 2(fwpr148p1) entered disabled state
[Sat Mar 20 10:15:04 2021] device fwln148i1 left promiscuous mode
[Sat Mar 20 10:15:04 2021] fwbr148i1: port 1(fwln148i1) entered disabled state
[Sat Mar 20 10:15:04 2021] device fwpr148p1 left promiscuous mode
[Sat Mar 20 10:15:04 2021] vmbr1: port 2(fwpr148p1) entered disabled state
[Sat Mar 20 10:15:13 2021] device bond1 left promiscuous mode
[Sat Mar 20 10:15:13 2021] device eth2 left promiscuous mode
[Sat Mar 20 10:15:13 2021] device eth3 left promiscuous mode
[Sat Mar 20 10:16:10 2021] libceph: osd28 down
[Sat Mar 20 10:16:14 2021] libceph: osd28 up
[Sat Mar 20 10:16:49 2021] libceph: osd16 down
[Sat Mar 20 10:16:55 2021] libceph: osd17 down
[Sat Mar 20 10:16:55 2021] libceph: osd16 up
Kurze Zeit später, fliegt das ganze Cluster auseinander, da sich reihenweise die 10G Netzwerkkarten der Nodes wegen (vermutlich) hohem Corosync Broadcast abschalten.
Netzwerkkarten sind entweder Intel X520-DA2 oder Mellanox Connect X3.
Kann uns hier jemand weiterhelfen?
Viele Grüße
wir betreiben ein großes Cluster mit 41 Nodes (Prozessor: AMD EPYC 7402P) sowie separate 2x 10G NIC für ceph + Cluster-Traffic (corosync etc).
Cluster, Ceph usw ist alles abgetrennt vom normalen Traffic der VMs. Wir nehmen zwei redundante Switche (Arista) für ceph und zwei redundante Switche (Juniper) für die VMs um nach außen zu verbinden.
Leider passiert es ab und zu, dass nach einem Neustart einer großen VM (>100GB Ram), die 10G Netzwerk Karte für ceph + corosync aussteigt:
[Sat Mar 20 10:15:03 2021] vmbr0: port 5(tap148i0) entered disabled state
[Sat Mar 20 10:15:04 2021] fwbr148i1: port 2(tap148i1) entered disabled state
[Sat Mar 20 10:15:04 2021] fwbr148i1: port 1(fwln148i1) entered disabled state
[Sat Mar 20 10:15:04 2021] vmbr1: port 2(fwpr148p1) entered disabled state
[Sat Mar 20 10:15:04 2021] device fwln148i1 left promiscuous mode
[Sat Mar 20 10:15:04 2021] fwbr148i1: port 1(fwln148i1) entered disabled state
[Sat Mar 20 10:15:04 2021] device fwpr148p1 left promiscuous mode
[Sat Mar 20 10:15:04 2021] vmbr1: port 2(fwpr148p1) entered disabled state
[Sat Mar 20 10:15:13 2021] device bond1 left promiscuous mode
[Sat Mar 20 10:15:13 2021] device eth2 left promiscuous mode
[Sat Mar 20 10:15:13 2021] device eth3 left promiscuous mode
[Sat Mar 20 10:16:10 2021] libceph: osd28 down
[Sat Mar 20 10:16:14 2021] libceph: osd28 up
[Sat Mar 20 10:16:49 2021] libceph: osd16 down
[Sat Mar 20 10:16:55 2021] libceph: osd17 down
[Sat Mar 20 10:16:55 2021] libceph: osd16 up
Kurze Zeit später, fliegt das ganze Cluster auseinander, da sich reihenweise die 10G Netzwerkkarten der Nodes wegen (vermutlich) hohem Corosync Broadcast abschalten.
Netzwerkkarten sind entweder Intel X520-DA2 oder Mellanox Connect X3.
Kann uns hier jemand weiterhelfen?
Viele Grüße