[SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

Ingo S · Sep 2, 2024

Hallo zusammen

Vorhin ist uns in unserem 6 Node Cluster ein Node ausgefallen, da sich die OS SSD verabschiedet hat. Die VMs haben wir auf dem Rest des Clusters wieder gestartet.
Da der Node aber auch Teil des Ceph ist, überlege ich jetzt, wie das sinnvollste Vorgehen aussieht.

Auf dem Server würde ich PVE neu installieren müssen. Die SSD wird zwar noch erkannt, aber beim Booten kann das Journal nicht gelesen und repariert werden. Die Maschine bleibt dann im initramfs stecken.
Kann ich die bestehende Ceph Konfiguration, also insbesondere die der OSDs irgendwie in die neue Installation mitnehmen? Die OSDs sind im Grunde unbeschädigt und müssten auf der neuen Installation einfach nur wieder gestartet werden.

Ich bin mir nur nicht sicher, was da der beste Weg ist, das zu erreichen und bräuchte da mal ein wenig Anleitung.

aaron · Sep 2, 2024

Sollte gehen. PVE Node aus dem Cluster nehmen laut Anleitung: https://pve.proxmox.com/pve-docs/chapter-pvecm.html#_remove_a_cluster_node
Dann neu installieren und wieder in den PVE Cluster einbinden.
Wenn auch Ceph installiert ist, kannst du mit

Code:

ceph-volume lvm activate --all

Die alten OSDs wieder einbinden. Es sucht nach OSDs, aktiviert die passenden systemd units und schiebt die OSDs wenn nötig in der Ceph CRUSH map an die richtige Stelle.

Ingo S · Sep 2, 2024

Super, vielen Dank. Das werde ich testen.
Vor Jahren hat das Reaktivieren bestehender OSDs auf neuen Installationen nicht wirklich geklappt. Aber möglicherweise hat sich das mit den Updates über die Jahre verbessert.

aaron · Sep 2, 2024

Sollte gut klappen. Die ganzen Metainfos einer OSD sind in den LV Tags hinterlegt.

Falk R. · Sep 3, 2024

Also in der Testumgebung hat das schon sauber funktioniert. Produktiv musste ich das noch nicht testen.

NojuHD · Sep 3, 2024

Bei mir hat es in Vergangenheit leider die Produktivumgebung erwischt, aber mit dem o. g. Vorgehen lief alles reibungslos

Ingo S · Sep 3, 2024

Das hat erstaunlich gut geklappt.

Server neu installieren
Alle Netzwerkverbindungen wiederherstellen
Alten Server wie im Wiki beschrieben aus dem Cluster entfernen
Neuen Server über die Join Informationen in den Cluster aufnehmen
Ceph auf dem neuen Node installieren
Ggf. Manager neu einrichten (der ausgefallene Server war Manager)
Alle OSDs wurden auf magische Weise erkannt und konnten problemlos gestartet werden.

Nice!

ToDo:
Der ausgefallene Server war auch einer von drei Monitor Nodes. Der alte wird noch als "unknown" geführt. Wie bekomme ich den nochmal raus und neu eingerichtet?

aaron · Sep 3, 2024

Auf der Node selbst musst du wenig machen, denn da ist ja tabula-rasa gemacht worden.
Mit ceph mon remove {mon-id} sollte sich der MON aus Ceph entfernen lassen. Siehe https://docs.ceph.com/en/latest/rados/operations/add-or-rm-mons/#removing-a-monitor-manual

EDIT: auch in der ceph.conf alle Einträge des verlorenen MONs entfernen, siehe zwei Antworten weiter unten.

Danach kannst du ihn wieder wie gewohnt anlegen.

Ingo S · Sep 4, 2024

Danke erstmal. Entfernen lies sich der Monitor Node. Aber er lässt sich nicht neu installieren. Ich bekomme die Meldung das die IP bereits in Verwendung ist. Ich vermute, da ist doch noch irgendwo ein Rest konfig vom Monitor, evtl im pvecfs?

aaron · Sep 4, 2024

Ingo S said:
Danke erstmal. Entfernen lies sich der Monitor Node. Aber er lässt sich nicht neu installieren. Ich bekomme die Meldung das die IP bereits in Verwendung ist. Ich vermute, da ist doch noch irgendwo ein Rest konfig vom Monitor, evtl im pvecfs?

ah, ich hab vergessen dass in der ceph.conf ja auch noch Einträge für den MON existieren.

In der global Section in der Zeile mon_host muss die IP des verlorenen MONs entfernt werden
es gibt eine eigene [mon.{hostname}] Section die auch komplett raus muss. Es sollte eigentlich nur eine Zeile mit der public_addr geben.

Ingo S · Sep 5, 2024

Super, vielen Dank! Das wars!

(Da man das so selten braucht, vergisst man sowas zu leicht)

Search

Search

[SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

Ingo S

Renowned Member

aaron

Proxmox Staff Member

Ingo S

Renowned Member

aaron

Proxmox Staff Member

Falk R.

Famous Member

NojuHD

Member

Ingo S

Renowned Member

aaron

Proxmox Staff Member

Ingo S

Renowned Member

aaron

Proxmox Staff Member

Ingo S

Renowned Member