Hallo an alle,
wir haben Folgendes Problem:
Es ist jetzt zum zweiten Mal vorgekommen, dass alle Nodes unseres Clusters, auf denen Ceph läuft, sich ohne Vorwarnung neu gestartet haben.
Wir finden den Grund nicht und hoffen das ihr uns Tipps geben könnt wo wir suchen können.
Cluster:
9 Nodes , Node 1-7 sind Storage-Nodes auf denen Ceph läuft, Node 8 und 9 sind "Compute-only-Nodes"
Netzwerkkonfiguration: Nodes 1-7 haben jeweils zwei Mellanox ConnectX3 Pro 2x40GBit/s Karten.
Diese sind an zwei 40GBit Switchen (Marke FS), jeweils eine Karte mit beiden Ports an einem Switch.
Die zweite Karte ist ausschließlich für das Rebalancing/Recovery von Ceph eingerichtet.
Beispiel der Netzwerkonfiguration der Nodes 1 - 7:
Nodes 8 und 9 haben jeweils nur eine Mellanox ConnectX3 mit 2 x 40GBit/s
Diese sind jeweils mit beiden Switches mit einem Port der Karte verbunden.
Beispiel der Netzwerkonfiguration der Nodes 8 und 9:
Log Einträge vor dem Crash sind im Anhang.
Linux Kernel: 6.1.2-1-pve #1 SMP PREEMPT_DYNAMIC PVE 6.1.2-1 (2023-01-10T00:00Z) x86_64 GNU/Linux
Ceph: 17.2.5 (e04241aa9b639588fa6c864845287d2824cb6b55) quincy (stable)
cluster:
id: 79093787-e47c-4099-bb68-caa12d18d996
health: HEALTH_OK
services:
mon: 3 daemons, quorum prox3,prox2,prox4 (age 3h)
mgr: prox2(active, since 3h), standbys: prox3
mds: 1/1 daemons up, 1 standby
osd: 33 osds: 33 up (since 3h), 33 in (since 3h)
data:
volumes: 1/1 healthy
pools: 5 pools, 1121 pgs
objects: 16.77M objects, 16 TiB
usage: 46 TiB used, 73 TiB / 119 TiB avail
pgs: 1121 active+clean
Wäre cool wen jemand eine Idee hat wonach wir suchen können.
Danke im Voraus!
wir haben Folgendes Problem:
Es ist jetzt zum zweiten Mal vorgekommen, dass alle Nodes unseres Clusters, auf denen Ceph läuft, sich ohne Vorwarnung neu gestartet haben.
Wir finden den Grund nicht und hoffen das ihr uns Tipps geben könnt wo wir suchen können.
Cluster:
9 Nodes , Node 1-7 sind Storage-Nodes auf denen Ceph läuft, Node 8 und 9 sind "Compute-only-Nodes"
Netzwerkkonfiguration: Nodes 1-7 haben jeweils zwei Mellanox ConnectX3 Pro 2x40GBit/s Karten.
Diese sind an zwei 40GBit Switchen (Marke FS), jeweils eine Karte mit beiden Ports an einem Switch.
Die zweite Karte ist ausschließlich für das Rebalancing/Recovery von Ceph eingerichtet.
Beispiel der Netzwerkonfiguration der Nodes 1 - 7:
Nodes 8 und 9 haben jeweils nur eine Mellanox ConnectX3 mit 2 x 40GBit/s
Diese sind jeweils mit beiden Switches mit einem Port der Karte verbunden.
Beispiel der Netzwerkonfiguration der Nodes 8 und 9:
Log Einträge vor dem Crash sind im Anhang.
Linux Kernel: 6.1.2-1-pve #1 SMP PREEMPT_DYNAMIC PVE 6.1.2-1 (2023-01-10T00:00Z) x86_64 GNU/Linux
Ceph: 17.2.5 (e04241aa9b639588fa6c864845287d2824cb6b55) quincy (stable)
cluster:
id: 79093787-e47c-4099-bb68-caa12d18d996
health: HEALTH_OK
services:
mon: 3 daemons, quorum prox3,prox2,prox4 (age 3h)
mgr: prox2(active, since 3h), standbys: prox3
mds: 1/1 daemons up, 1 standby
osd: 33 osds: 33 up (since 3h), 33 in (since 3h)
data:
volumes: 1/1 healthy
pools: 5 pools, 1121 pgs
objects: 16.77M objects, 16 TiB
usage: 46 TiB used, 73 TiB / 119 TiB avail
pgs: 1121 active+clean
Wäre cool wen jemand eine Idee hat wonach wir suchen können.
Danke im Voraus!