[SOLVED] Ceph nach ISCSI Mulitpath defekt

Sep 1, 2025
8
0
1
Wir testen gerade ProxMox als VMWare Ersatz.
Ich habe die Schulungen gemacht und bassierend auf dieser ohne große Probleme ein Cluster mit 3 Nodes und Ceph aufbauen können.

Heute wollte ich unsere ISCSI NAS hinzufügen, aber das hat nicht so ganz geklappt.
Ich konnte auf die LUN zugreifen und nutzen, aber beim Mulitpath ist wohl etwas schief gelaufen.

Ich bekam beim Storage Move folgenden Fehler mehrmahls für verschiedene Festplatten:
WARNING: Device mismatch detected for ceph-8da701f2-b1cc-445c-8559-372a463525c3/osd-block-690c4705-a177-4bad-84b8-16732433cc73 which is accessing /dev/sdf instead of /dev/mapper/mpathf.

Ich dachte, ok mach ich erstmal alles wieder runter, Mulitpath und die ISCSI Targets entfernt und einen der Hosts neu gestartet.
Nun nach einem Neustart kommen die CEP OSDs nicht mehr hoch, entweder kann ich Sie starten, bleiben aber rot oder ich bekomme folgende Fehlermeldung:

Job for ceph-osd@10.service failed because the control process exited with error code.
See "systemctl status ceph-osd@10.service" and "journalctl -xeu ceph-osd@10.service" for details.
TASK ERROR: command '/bin/systemctl start ceph-osd@10' failed: exit code 1

Ich habe Testweise eine OSD zerstört, kann diese dann aber auch nicht mehr mit create OSD neu anlegen, da mir die Festplatte nicht einmal angezeigt wird.
Aus meiner Sicht habe ich wohl die Zugriffe verändert, kenne mich aber zu wenig aus um zu wissen wo genau ich nun schauen muss. Im schmlimmsten Fall muss ich PVE neu aufsetzten.
Jemand eine Idee was ich machen kann?
 
Last edited:
Update:
Ich habe multipath wieder installiert.
Danach in der .conf Datei die CEPH Disks auf die Blacklist gesetzt und die Mappings mit multipath -F gelöscht.
Die Disks sind aber immer noch nicht wieder online.
 
Nächstes Update:
Nachdem ich in der /etc/lvm/lvm.conf

multipath_component_detection = 0
gesetzt habe geht Ceph wieder. Nun habe ich aber noch das Problem das ich zwei Festplatten gelöscht hatte und nun keine OSDs mehr daraus erzeugen kann, hier die Fehlermeldung:

Running command: /bin/systemctl enable --runtime ceph-osd@10
Running command: /bin/systemctl start ceph-osd@10
stderr: Job for ceph-osd@10.service failed because the control process exited with error code.
See "systemctl status ceph-osd@10.service" and "journalctl -xeu ceph-osd@10.service" for details.
--> Was unable to complete a new OSD, will rollback changes

und hier das journal:

The job identifier is 4743 and the job result is failed.
Sep 16 18:27:12 pve2 systemd[1]: ceph-osd@10.service: Start request repeated too quickly.
Sep 16 18:27:12 pve2 systemd[1]: ceph-osd@10.service: Failed with result 'exit-code'.
░░ Subject: Unit failed
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░
░░ The unit ceph-osd@10.service has entered the 'failed' state with result 'exit-code'.
Sep 16 18:27:12 pve2 systemd[1]: Failed to start ceph-osd@10.service - Ceph object storage daemon osd.10.
░░ Subject: A start job for unit ceph-osd@10.service has failed
░░ Defined-By: systemd
 
Ja dann wird nicht geschaut ob neue Pfade oder Multipath Geräte hinzugefügt wurden.
Wenn das Setup statisch ist, passiert nichts.
Hättest du von Anfang an mit sauberer Blacklist oder manuellem hinzufügen von Multipath Devices gearbeitet, wäre nix passiert.
 
Also die Anleitungen welche ich bisher hatte (nur Enterprise Hersteller) waren sauber und hatten das Multipathing oft noch stärker eingeschränkt als ich das aus dem Bach heraus getan hätte.
 
Ich habe mich an eine Anleitung von Dell gehalten und auch grade noch einmal nachgesehen... da stand leider nichts von Blacklist oder auch nur ein Hinweis in dieser Richtung drinnen.
Darf ich hier Links zu solchen Anleitungen posten?
 
Ich habe mich an eine Anleitung von Dell gehalten und auch grade noch einmal nachgesehen... da stand leider nichts von Blacklist oder auch nur ein Hinweis in dieser Richtung drinnen.
Darf ich hier Links zu solchen Anleitungen posten?
Aber natürlich, ist ja nur eine Anleitung für Multipathing.