[SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

Ingo S

Renowned Member
Oct 16, 2016
339
40
68
41
Hallo zusammen

Vorhin ist uns in unserem 6 Node Cluster ein Node ausgefallen, da sich die OS SSD verabschiedet hat. Die VMs haben wir auf dem Rest des Clusters wieder gestartet.
Da der Node aber auch Teil des Ceph ist, überlege ich jetzt, wie das sinnvollste Vorgehen aussieht.

Auf dem Server würde ich PVE neu installieren müssen. Die SSD wird zwar noch erkannt, aber beim Booten kann das Journal nicht gelesen und repariert werden. Die Maschine bleibt dann im initramfs stecken.
Kann ich die bestehende Ceph Konfiguration, also insbesondere die der OSDs irgendwie in die neue Installation mitnehmen? Die OSDs sind im Grunde unbeschädigt und müssten auf der neuen Installation einfach nur wieder gestartet werden.

Ich bin mir nur nicht sicher, was da der beste Weg ist, das zu erreichen und bräuchte da mal ein wenig Anleitung.
 
Sollte gehen. PVE Node aus dem Cluster nehmen laut Anleitung: https://pve.proxmox.com/pve-docs/chapter-pvecm.html#_remove_a_cluster_node
Dann neu installieren und wieder in den PVE Cluster einbinden.
Wenn auch Ceph installiert ist, kannst du mit
Code:
ceph-volume lvm activate --all
Die alten OSDs wieder einbinden. Es sucht nach OSDs, aktiviert die passenden systemd units und schiebt die OSDs wenn nötig in der Ceph CRUSH map an die richtige Stelle.
 
Super, vielen Dank. Das werde ich testen.
Vor Jahren hat das Reaktivieren bestehender OSDs auf neuen Installationen nicht wirklich geklappt. Aber möglicherweise hat sich das mit den Updates über die Jahre verbessert.
 
Sollte gut klappen. Die ganzen Metainfos einer OSD sind in den LV Tags hinterlegt.
 
  • Like
Reactions: Ingo S and NojuHD
Also in der Testumgebung hat das schon sauber funktioniert. Produktiv musste ich das noch nicht testen. ;)
 
Bei mir hat es in Vergangenheit leider die Produktivumgebung erwischt, aber mit dem o. g. Vorgehen lief alles reibungslos :D
 
  • Like
Reactions: aaron
Das hat erstaunlich gut geklappt.
  1. Server neu installieren
  2. Alle Netzwerkverbindungen wiederherstellen
  3. Alten Server wie im Wiki beschrieben aus dem Cluster entfernen
  4. Neuen Server über die Join Informationen in den Cluster aufnehmen
  5. Ceph auf dem neuen Node installieren
  6. Ggf. Manager neu einrichten (der ausgefallene Server war Manager)
  7. Alle OSDs wurden auf magische Weise erkannt und konnten problemlos gestartet werden.
Nice!

ToDo:
Der ausgefallene Server war auch einer von drei Monitor Nodes. Der alte wird noch als "unknown" geführt. Wie bekomme ich den nochmal raus und neu eingerichtet?
 
Last edited:
Danke erstmal. Entfernen lies sich der Monitor Node. Aber er lässt sich nicht neu installieren. Ich bekomme die Meldung das die IP bereits in Verwendung ist. Ich vermute, da ist doch noch irgendwo ein Rest konfig vom Monitor, evtl im pvecfs?
 
Danke erstmal. Entfernen lies sich der Monitor Node. Aber er lässt sich nicht neu installieren. Ich bekomme die Meldung das die IP bereits in Verwendung ist. Ich vermute, da ist doch noch irgendwo ein Rest konfig vom Monitor, evtl im pvecfs?
ah, ich hab vergessen dass in der ceph.conf ja auch noch Einträge für den MON existieren.
  • In der global Section in der Zeile mon_host muss die IP des verlorenen MONs entfernt werden
  • es gibt eine eigene [mon.{hostname}] Section die auch komplett raus muss. Es sollte eigentlich nur eine Zeile mit der public_addr geben.
 
  • Like
Reactions: Ingo S and NojuHD

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!