HA Cluster mit Ceph hängt wenn eine bestimmte Node neustartet

CaZeus · Nov 16, 2023

Hallo,

ich habe aktuell noch ein Testcluster mit 3 Nodes, Ceph und lokalem Storage.
Alles läuft fehlerfrei. Migration der Container und VMs, Replikation von größeren virtuellen Festplatten für Fileserver zwischen den Nodes - alles super.

Wenn ich aber die Nodes warte, also Updates installiere und neustarte habe ich einen seltsamen Fehler.

Ich setze die Node in den Wartungsmodus, setze bei Ceph den Flag noout und beginne mit dem Update.
Bei Node2 und Node3 läuft auch alles weiterhin problemlos, so wie es in einem Cluster laufen soll.
Wenn ich aber Node1 neustarte, ist es so, als wenn alles freezed. Die VMs sind zwar noch an, aber ich kann in Windows z.B. kein neues Fenster öffnen, egal welche Anwendung. Nicht mal den Task-Manager kann ich öffnen.
Wenn Node1 wieder da ist, werden alle meine Befehle in den VMs abgearbeitet, als wenn die in einer Queue gelandet wären.
Die Anzeige bei Ceph läuft auch in ein Time out während Node1 neustartet.

Aber das eben nur bei Node1.

Der einzige Unterschied ist der, das Node1 das Cluster erstellt hat. Ansonsten sind alle 3 Nodes baugleich.

Hatte einer auch schon einmal so ein Phänomen?

Gruß

Falk R. · Nov 17, 2023

Hi,
wie sieht deine Ceph Konfiguration aus?
Auf jedem Node muss ein Monitor Dienst laufen und am besten machst du auf zwei Nodes ein Manager. Die Monitor steuern das Ceph und bilden das quorum, die Manager sind dafür da, dass du etwas sehen kannst und managen kannst.

CaZeus · Nov 17, 2023

Hi,

das habe ich gemacht. Jede Node kann jeden Dienst erledigen.

Falk R. · Nov 17, 2023

Dann sollte nix passieren, wenn du den Node1 aus machst.
Was für ein Ceph-Netzwerk hast du denn?
Switched oder direkt verkabelt?

CaZeus · Nov 17, 2023

direkte Verkabelung: 10G mit 1G Backup.

Das wundert mich ja auch. Vor allem ist auf allen 3 Nodes alles wirklich identisch. Server, NICs, Disks, Verkabelung ...

Falk R. · Nov 17, 2023

Wie hast du die direkt Verkabelung konfiguriert? Routing?
Wenn Node1 aus ist, können die beiden anderen sich noch pingen?

t.lamprecht · Nov 17, 2023

CaZeus said:
Wenn ich aber Node1 neustarte, ist es so, als wenn alles freezed. Die VMs sind zwar noch an, aber ich kann in Windows z.B. kein neues Fenster öffnen, egal welche Anwendung. Nicht mal den Task-Manager kann ich öffnen.
Wenn Node1 wieder da ist, werden alle meine Befehle in den VMs abgearbeitet, als wenn die in einer Queue gelandet wären.
Die Anzeige bei Ceph läuft auch in ein Time out während Node1 neustartet.

Aber das eben nur bei Node1.

Sicherheitshalber: Wenn du node1 neu startest, bist du eh auch über eine andere Node zum Proxmox VE web Interface verbunden?
Nicht dass du das web Interface immer von node1 öffnest, weill wenn diese Node neu gestartet wird, kann sie währenddessen ja nicht die API-requests entgegennehmen und zu den anderen Nodes proxy'n.

CaZeus · Nov 17, 2023

ja ich mache den Zugriff von den anderen beiden Nodes

Die Netzwerkports (10G und 1G) sind in einem Linux Bond im LACP Mode.
2 autarke Kreise die nur direkt gepatcht sind.

Die beiden Bonds (je zur anderen Node) sind in einer Linux Bridge mit IP Adresse.

In der Hosts sind auch für alle Netze wo die Nodes drin sind die Einträge eingetragen.

Während Node1 neustartet, kann ich z.B. von Node2 auf Node3 alles ansehen. Übersichtsseite, Konfig, Shell .....

Falk R. · Nov 17, 2023

Ganz sauber ist das nicht. Bei LACP spricht immer 1 Gerät mit 1 anderen Gerät über mehrere Ports und die einigen sich über das LACP Protokoll. Mich wundert, das die Konfiguration so überhaupt sauber läuft.
Wenn man das simpel halten möchte, würde ich broadcast nutzen. Ich persönlich baue Cluster nur mit Switches.

Falk R. · Nov 17, 2023

Du kannst deine Netzwerkkonfiguration mal beschreiben oder du hast ein Bild.
Ich investiere lieber 150€ und habe einen Switch, wo ich weiß, dass es keine Probleme im Netzwerk gibt. Für so kleine Sachen nehme ich gern den MikroTik CRS305, der hat 4x 10G.

CaZeus · Nov 17, 2023

ich hab jetzt das Ceph Netzwerk mal nur auf die 10G Verbindungen reduziert. Gleiches Problem

jetzt sieht es so aus:

Verbindung in das normale Netz und Corosync hab ich weg gelassen.

Und den Switch wollte ich erst einmal weg lassen, um einen SPOF weniger zu haben

Falk R. · Nov 17, 2023

Wenn du das so baust, hast du ja einen Loop. Hast du Spanning Tree im Einsatz?
Ich vermute du hast einen Bond zwischen 10G und 1G? Active Backup geht das, bei LACP würde ich auch nie Geschwindigkeit mixen.
Ich habe zuhause für Ceph je ein Bond Acitve Backup mit 1x 40G und failover auf 1x 10G. Sind auch getrennte Switches. Da geht auch ein Switchupdate ohne das man etwas merkt.
Produktiv nutze ich immer zwei identische Switches, entweder Active Backup oder im RoundRobin wenn die Switches MLAG unterstützen.

itNGO · Nov 17, 2023

Wie man das richtig macht ist hier beschrieben direkt von Proxmox.
Nennt sich Full-Mesh. Die einfachste Variante ist Routing.
https://pve.proxmox.com/wiki/Full_Mesh_Network_for_Ceph_Server

Falk R. · Nov 17, 2023

Meine Persönliche Erfahrung dazu:
Auch wenn routed schon Gute Performance bringt, ist die mit Switches dennoch besser und im Fehlerfall ist die Suche mit Switches etwas einfacher.
Wenn du die Anleitung aus dem Wiki, korrekt umsetzt, gibt es keine Aussetzer.

CaZeus · Nov 17, 2023

itNGO said:
Wie man das richtig macht ist hier beschrieben direkt von Proxmox.
Nennt sich Full-Mesh. Die einfachste Variante ist Routing.
https://pve.proxmox.com/wiki/Full_Mesh_Network_for_Ceph_Server

danach bin ich auch vorgegangen. Ich schau mir das nochmal an ob sich da irgendwas geändert hat.
Kann ja gut sein das ich beim testen irgendwo was verstellt habe

CaZeus · Nov 17, 2023

Falk R. said:
Wenn du das so baust, hast du ja einen Loop. Hast du Spanning Tree im Einsatz?
Ich vermute du hast einen Bond zwischen 10G und 1G? Active Backup geht das, bei LACP würde ich auch nie Geschwindigkeit mixen.
Ich habe zuhause für Ceph je ein Bond Acitve Backup mit 1x 40G und failover auf 1x 10G. Sind auch getrennte Switches. Da geht auch ein Switchupdate ohne das man etwas merkt.
Produktiv nutze ich immer zwei identische Switches, entweder Active Backup oder im RoundRobin wenn die Switches MLAG unterstützen.

kannst du mir deine konfig mal aufzeichnen? wenn ich dich richtig verstehe hast du 3 Verbindungen aus jedem Server raus. 2x 40G (Active und Backup) und falls das versagt einen 10G Failover.

Wieviel Last hast du denn im Ceph das du 40G benötigst?

itNGO · Nov 17, 2023

CaZeus said:
kannst du mir deine konfig mal aufzeichnen? wenn ich dich richtig verstehe hast du 3 Verbindungen aus jedem Server raus. 2x 40G (Active und Backup) und falls das versagt einen 10G Failover.

Wieviel Last hast du denn im Ceph das du 40G benötigst?

2 oder 3 NVMEs pro Node und 40G wird schon eng wenn man den "RICHTIG" von der Kette lässt....

Falk R. · Nov 18, 2023

CaZeus said:
kannst du mir deine konfig mal aufzeichnen? wenn ich dich richtig verstehe hast du 3 Verbindungen aus jedem Server raus. 2x 40G (Active und Backup) und falls das versagt einen 10G Failover.

Wieviel Last hast du denn im Ceph das du 40G benötigst?

Nein, ich habe 1x 40G active und als Failover 1x 10G auf den kleinen Switch als Failover im Bond. Der andere 40G Link ist direkt gesteckt für Migration.
Brauchen tue ich das nicht wirklich, aber wenn ich mal wieder etwas teste, soll es vernünftig laufen. Ich habe zuhause auch nur 4 SATA SSDs pro Node im Pool.
Produktiv habe ich bei meinen Kunden auch kleine Cluster mit 3x NVMe pro Node und da bis zu 60 GBIt Auslastung gesehen auf dem Switch. (100G Link)
Mal zur Veranschaulichung im standard 3 Replika Setup: Du schickst vom Client 1 Datenpaket zur primary OSD, die schickt dieses Paket an die beiden sekundär OSDs, diese geben ein ACK an die primary OSD und dann bekommt der Client das ACK.
Was lernen wir daraus? Du brachst 3x so viel Bandbreite wie du Daten schreiben möchtest (overhead mal nicht betrachtet) und ein niedrig Latenz Netzwerk bringt dich richtig vorwärts. Daher mache ich Produktiv nur noch 25G oder 100G.

CaZeus · Nov 28, 2023

So, ich habe meine Netzwerkkonfig noch einmal neu gemacht nach der Anleitung von Proxmox und jetzt geht es wie gewünscht. Da scheint sich beim testen echt ein Fehler eingeschlichen zu haben.

Aber ich werde die Tage auch mal umstellen auf Switchkonfig für den Test falls ich um weitere Nodes erweitern werde / muss.

Falk R. · Nov 28, 2023

Switches kosten ja nicht die Welt, und wenn du ein vernünftig redundantes Netzwerk möchtest, beschäftige dich mal mit MLAG und den properitären Ablegern der jeweiligen Hersteller.

HA Cluster mit Ceph hängt wenn eine bestimmte Node neustartet

New Member

Distinguished Member

New Member

Distinguished Member

New Member

Distinguished Member

Proxmox Staff Member

New Member

Distinguished Member

Distinguished Member

New Member

Attachments

Distinguished Member

Renowned Member

Distinguished Member

New Member

New Member

Renowned Member

Distinguished Member

New Member

Distinguished Member