Probleme mit Thunderbolt-Netzwerk nach Upgrade auf v9

frantek

Renowned Member
May 30, 2009
190
7
83
Hallo,

ich hab einen Cluster mit 3 Nodes und Ceph auf Basis von Minisorum MS-01 PCs. Für die Cluster und Ceph-Kommunikation habe ich auf den Thunderbolt-Ports einen Netzwerk-Ring. Das funktioniert seit gut einem Jahr mit der v8 problemlos. Heute habe ich da Upgrade auf die v9 gemacht und habe recht massive Probleme. Es ging so los, dass der "dritte" (also der zu letzt gestartete ...) Node die TB-Interfaces gar nicht gesehen hat. Nach ein bisschen Kabel ziehen und stecken und Reboots kam dann doch am dritten Node eines der beiden Interfaces auf. Folgendes ist der aktuelle Stand: Stecke ich alle Kabel und starte den "dritten" Node kommt keines der beiden TB-Interfaces auf. Wenn ich den "dritten" Node nur mit einem der beiden Anderen verbinde startet der "dritte" Node und die Verbindung funktioniert auch. Stecke ich dann mit Betrieb das zweite TB-Kabel in den "dritten" Node geht der einfach aus, so als hätte ich den Strom ausgeschaltet.

Da das mit der v8 alles sehr lange ohne Probleme funktioniert hat meine ich könnte das ein Bug im Kernel, TB-Treiber, etc. sein. Weiss jemand Rat?

TIA
Matthias
 
Last edited:
Aus unerklärlichen Gründen ist das Problem weg. Das ist zwar gut, aber auch nicht, denn ohne den Grund zu kennen könnte es ja jeder Zeit wieder passieren ...
 
Ich denke die wenigsten werden so ein Setup am Laufen haben.
Wenn du den Fehler gefunden hast, kannst du es ja hier Kommunizieren oder einen Bugreport machen.

Was ich auch noch nicht ganz verstanden habe, ich war immer der Meinung das für CEPH-Kluster die Empfehlung ist mit 5 Nodes zu arbeiten. Ich hoffe dein Cluster ist kein Produktiv System.
 
Den Grund konnte ich nicht ermitteln. Doch, der ist schon produktiv, seit gut einem Jahr. So weit ohne Probleme. Das einzig weniger schöne ist halt, dass man auf EEC-Ram verzichten muss. Ich werde ihn aber demnächst um einen 4. Node erweitern.
 
Ich denke die wenigsten werden so ein Setup am Laufen haben.
Wenn du den Fehler gefunden hast, kannst du es ja hier Kommunizieren oder einen Bugreport machen.

Was ich auch noch nicht ganz verstanden habe, ich war immer der Meinung das für CEPH-Kluster die Empfehlung ist mit 5 Nodes zu arbeiten. Ich hoffe dein Cluster ist kein Produktiv System.
Empfehlungen gibt es ganz viele. Mit 5 Nodes hast du den Vorteil, dass du einen Node in Wartung nehmen kannst und ein zweiter gleichzeitig ausfallen kann, aber auch nur wenn du die Verfügbarkeit in deinem Pool von 3/2 auf 4/2 anhebst.
Produktiv kannst du immer einen 3 Node Cluster fahren und die meisten sind fein damit, dass wenn ein Node Ausfällt, während der 10 Minuten wo ein anderer Node gerede in Wartung ist und neu startet, dann hat man halt Downtime.
Hier geht es immer um eine Risiko/Kostenabwägung und da können 99% mit 3 Nodes leben.
 
  • Like
Reactions: Johannes S
Ich denke da liegt ein Missverständnis wegen so Artikeln wie von @UdoB vor:


Der beschreibt ja Setups, die nicht nur wegen der Knotenanzahl, sondern auch den sonstigen Rahmenbedingungen "built to break" sind: Drei Knoten, nur eine OSD pro Knoten,nur eine ( dazu lahme ( unter 10Gbit) Netzwerkverbindung etc pp

Bei drei Knoten mit jeweils mindestens vier OSDs und eigenen Ceph- und Corosync-Netzwerken ( gerne redundant und für Ceph 25 oder 100Gbit) schaut das schon anders aus, als bei
aus Restposten zusammengefrickelten Homelabs ;)
 
Last edited:
  • Like
Reactions: Falk R.
Bei drei Knoten mit jeweils mindestens vier OSDs und eigenen Ceph- und Corosync-Netzwerken ( gerne redundant und für Ceph 25 oder 100Gbit) schaut das schon anders aus
Das fundamentale Problem, dass kein Reserve-Node vorhanden ist, der für self-healing notwendig wäre, bleibt dennoch.

Aber ja, mein Artikel treibt die Problemfindung etwas auf die Spitze - das ist natürlich Absicht: mit Problemzonen, die man kennt, kann man möglicherweise leben.

Und im Homelab kann man schon mal flexibel sein :-)
 
  • Like
Reactions: Johannes S
Naja Selfhealing ist super für Systeme auf Schiffen oder wenn der Zugang limitiert ist. Mit Monitoring und flinken Händen, ist ein Node bei Bedarf auch schnell gefixt. Einzelne Diskausfälle sollten natürlich immer möglich sein. Daher sollte man ja mit 4-5 Disks beginnen und niemals mit 1. Auch in meinem Homelab habe ich nur je 2 SSDs, aber der Pool ist nur zu 30% voll, da reicht das auch.
 
  • Like
Reactions: Johannes S