Ceph Cluster Datenrettung


New Member
Apr 25, 2023
Hallo zusammen!

Ich habe ein Proxmox Cluster mit 3 Servern. Darauf ist ein Ceph cluster installiert. Dieses mit Separatem Subnetz auf separaten Netzwerkkarten. Das lief jetzt ziemlich genau ein Jahr ziemlich problemlos (Hab es letztes Jahr im September Urlaub aufgebaut, und jetzt ist gerade wieder September Urlaub.)
Dienstag abend stand das Cluster plötzlich still. Auf einem der Server war der OSD kaputt. Alles Mal rebooten, OSD neu machen und dem System die Nacht über Zeit lassen, dass wieder zu synchronisieren.
Mittwoch war dann nicht alles gut. Der eine neugebaute OSD kam zwar "up" lies sich aber nicht starten. Also nochmal neu gebaut. Ich habe keine Ahnung was passiert ist, auf einmal starten die Ceph Dienste gar nicht mehr vernünftig. In der Cluster-Übersicht sehe ich weder Manager noch Monitordienste laufen.
Gestern abend habe ich mir dann erstmal ne Pause verordnet und beschlossen ne nacht drüber zu schlafen.

Wenn ich das System sinnvoll umbaue, verzichte ich auf den CEPH Kram und das Cluster und baue alles auf eine Maschine. Dafür würde ich aber gerne die VMs nochmal aus dem Cephpool rausholen.

OK [pve11 dump]# tail -f  vzdump-qemu-100-2024_09_19-13_20_30.log
2024-09-19 13:20:30 INFO: Starting Backup of VM 100 (qemu)
2024-09-19 13:20:30 INFO: status = stopped
2024-09-19 13:20:30 INFO: backup mode: stop
2024-09-19 13:20:30 INFO: ionice priority: 7
2024-09-19 13:20:30 INFO: VM Name: hlcloud
2024-09-19 13:20:30 INFO: include disk 'scsi0' 'cephpool:vm-100-disk-2' 17G
2024-09-19 13:20:30 INFO: include disk 'scsi1' 'cephpool:vm-100-disk-3' 200G
2024-09-19 13:25:30 ERROR: Backup of VM 100 failed - cannot determine size of volume 'cephpool:vm-100-disk-2' - rbd error: rbd: couldn't connect to the Cluster

Ich gehe mal davon aus, dass ich da irgendwas machen kann? Oder muss ich da an einen anderen Dienst ran?

[pve11 dump]# systemctl status ceph-osd@1.service
× ceph-osd@1.service - Ceph object storage daemon osd.1
     Loaded: loaded (/lib/systemd/system/ceph-osd@.service; enabled-runtime; preset: enabled)
    Drop-In: /usr/lib/systemd/system/ceph-osd@.service.d
     Active: failed (Result: exit-code) since Thu 2024-09-19 13:31:56 CEST; 12min ago
   Duration: 5min 35ms
    Process: 8589 ExecStartPre=/usr/libexec/ceph/ceph-osd-prestart.sh --cluster ${CLUSTER} --id 1 (code=exited, status=0/SUCCESS)
    Process: 8593 ExecStart=/usr/bin/ceph-osd -f --cluster ${CLUSTER} --id 1 --setuser ceph --setgroup ceph (code=exited, status=1/FAILURE)
   Main PID: 8593 (code=exited, status=1/FAILURE)
        CPU: 278ms

Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Scheduled restart job, restart counter is at 3.
Sep 19 13:31:56 pve11 systemd[1]: Stopped ceph-osd@1.service - Ceph object storage daemon osd.1.
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Start request repeated too quickly.
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Failed with result 'exit-code'.
Sep 19 13:31:56 pve11 systemd[1]: Failed to start ceph-osd@1.service - Ceph object storage daemon osd.1.
Error [pve11 dump]# systemctl start ceph-osd@1.service
Job for ceph-osd@1.service failed because the control process exited with error code.
See "systemctl status ceph-osd@1.service" and "journalctl -xeu ceph-osd@1.service" for details.
Error [pve11 dump]# journalctl -xeu ceph-osd@1.service
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░ An ExecStart= process belonging to unit ceph-osd@1.service has exited.
░░ The process' exit code is 'exited' and its exit status is 1.
Sep 19 13:31:46 pve11 systemd[1]: ceph-osd@1.service: Failed with result 'exit-code'.
░░ Subject: Unit failed
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░ The unit ceph-osd@1.service has entered the 'failed' state with result 'exit-code'.

Vielen Dank im Voraus.
Ich haue hier mal rein, was ich noch so probiere.

Error [pve12 ceph]# mount.ceph admin@c692fc67-d635-4eee-8653-60c85f468b92.cephfs=/ /mnt/test/
mount error: no mds server is up or the cluster is laggy
Was gibt denn ceph -s zurück?
Laufen die anderen Dienste im Cluster? MONs, MGRs, MDS' und OSDs?

Das Netzwerk für Ceph läuft auch noch? Evtl eine große MTU konfiguriert? Falls ja, gehen große Pakete auch noch darüber?
ping -M do -s 8972 {target host}
Hey Aaron, danke für die Rückfragen, ich melde mich die Tage, ich liege mit ner Erkältung flach, die lässt mich gerade nicht viel machen...
  • Like
Reactions: aaron
So, ich habe endlich wieder Zeit für die Problematik.
Hier ein paar Info zu den MAschinen:

pve10 pve11 pve12
Ceph Subnetz

Normaler Ping geht, ich hatte die MTU immer auf 1500 gelassen, ob dass Schuld für meine Performance Probleme war? keine Ahnung.
Die Anpassung der MTU Hat aber nicht funktioniert. (Was erstmal egal wäre, wenn ich die zwei oder drei wichtigen virtuellen Maschinen da nochmal rauskriege, dann baue ich das auf einen Server um. )

ceph -s kommt nicht zurück.

Aktuell sehe ich in der Proxmox oberfläche nichts: Keine OSD, keine Manager, keinen monitor

[pve12 ~]# systemctl status ceph
ceph-crash.service                                              ceph-mon@pve12.service                                          ceph.target
ceph-fuse.target                                                ceph-mon.target                                                 ceph-volume@lvm-1-d04e59fc-ff24-4289-abc8-53d14c0548d9.service
ceph-mds.target                                                 ceph-osd@2.service                                              ceph-volume@lvm-2-da6257ec-5cfd-48a4-bbe9-763bb0f16e25.service
ceph-mgr.target                                                 ceph-osd.target                                                 

[pve11 ~]# systemctl status ceph
ceph-crash.service                                              ceph-mgr.target                                                 ceph.target
ceph-fuse.target                                                ceph-mon@pve11.service                                          ceph-volume@lvm-0-a3eac62a-d950-4f81-9992-8087cb706c80.service
ceph-mds@pve11.service                                          ceph-mon.target                                                 ceph-volume@lvm-1-ae17daf1-4fe8-42be-85f9-3d0af1cb0799.service
ceph-mds.target                                                 ceph-osd@1.service                                             
ceph-mgr@pve11.service                                          ceph-osd.target   

[pve10 ~]# systemctl status ceph
ceph-crash.service                                              ceph-mon.target                                                 ceph-volume@lvm-0-5f51e835-8cc9-44aa-9000-da2c5c6d0bb6.service
ceph-fuse.target                                                ceph-osd.target                                                 ceph-volume@lvm-2-8682925f-02ae-400b-88f3-b1ce2f83f12f.service
ceph-mds.target                                                 ceph.target                                                     ceph-volume@lvm-3-0a2d8310-08dc-4955-a1cf-81b7a894bbe2.service
ceph-mgr.target                                                 ceph-volume@lvm-0-2f2d723f-ec3f-4a1c-8b2a-d4dbd73a716c.service

Das sind die Stati, die ich mir angucken könnte. Wo fange ich am besten an??? Bevor ich wild probiere und noch mehr kaputt mache...

Danke und Grüße
Last edited:
Hängt das ceph -s oder bekommst du irgend eine Fehlermeldung oder etwas anderes angezeigt?

Check noch einmal das Netzwerk komplett, Jumbo Frames würde ich erst einmal aus lassen. Das kann etwas Performance bringen, aber die Jumbo Frames machen aus einem Golf auch keinen Porsche.

Dann mal den Status vom ceph-mgr und ceph-mon sowie die ceph-osd services abfragen.
Das ist hier leider wieder länger liegen geblieben, das Leben hatte anderes mit mir vor. Ich hatte aber Zeit nach zu denken. Es würde mir reichen, wenn ich die einzelnen Platten gemountet bekomme, die wichtigen Daten da runterholen kann und dann baue ich das Cluster zurück.

Unten folgen die Ausgaben von den drei Maschinen. Ich bin jetzt sehr überrascht, weil alle Dienste laufen, ich aber die OSDs auf allen drei Maschinen in der Proxmox oberfläche nicht sehe. Würde ich ein OSD erstellen wollen, meldet mir proxmox, alle SSDs seinen in Benutzung.

Da das Netzwerk nicht ordentlich konfiguriert war, liefen meine Backups auf den PBS auch in Timeouts :rolleyes:
Wollte ich mich immer mal drum kümmern, aber solange das Cephcluster lief, war ich da entspannt. Schade Schokolade.

wie gesagt: EInfach nen Mount ceph hinbekommen und ich wäre glücklich...

Error [pve10 ~]# systemctl status ceph-mgr.target

● ceph-mgr.target - ceph target allowing to start/stop all ceph-mgr@.service instances at once

     Loaded: loaded (/lib/systemd/system/ceph-mgr.target; enabled; preset: enabled)

     Active: active since Fri 2024-10-25 17:17:19 CEST; 1 month 10 days ago

Notice: journal has been rotated since unit was started, output may be incomplete.

OK [pve10 ~]# systemctl status ceph-mon.target

● ceph-mon.target - ceph target allowing to start/stop all ceph-mon@.service instances at once

     Loaded: loaded (/lib/systemd/system/ceph-mon.target; enabled; preset: enabled)

     Active: active since Fri 2024-10-25 17:17:19 CEST; 1 month 10 days ago

Notice: journal has been rotated since unit was started, output may be incomplete.

OK [pve10 ~]# systemctl status ceph-osd.target

● ceph-osd.target - ceph target allowing to start/stop all ceph-osd@.service instances at once

     Loaded: loaded (/lib/systemd/system/ceph-osd.target; enabled; preset: enabled)

     Active: active since Fri 2024-10-25 17:17:19 CEST; 1 month 10 days ago

Notice: journal has been rotated since unit was started, output may be incomplete.

OK [pve10 ~]#

[pve11 ~]# systemctl status ceph-mgr.target
● ceph-mgr.target - ceph target allowing to start/stop all ceph-mgr@.service instances at once
     Loaded: loaded (/lib/systemd/system/ceph-mgr.target; enabled; preset: enabled)
     Active: active since Fri 2024-10-25 17:17:28 CEST; 1 month 10 days ago

Oct 25 17:17:28 pve11 systemd[1]: Reached target ceph-mgr.target - ceph target allowing to start/stop all ceph-mgr@.service instances at once.
OK [pve11 ~]# systemctl status ceph-mon.target
● ceph-mon.target - ceph target allowing to start/stop all ceph-mon@.service instances at once
     Loaded: loaded (/lib/systemd/system/ceph-mon.target; enabled; preset: enabled)
     Active: active since Fri 2024-10-25 17:17:28 CEST; 1 month 10 days ago

Oct 25 17:17:28 pve11 systemd[1]: Reached target ceph-mon.target - ceph target allowing to start/stop all ceph-mon@.service instances at once.
OK [pve11 ~]# systemctl status ceph-osd.target
● ceph-osd.target - ceph target allowing to start/stop all ceph-osd@.service instances at once
     Loaded: loaded (/lib/systemd/system/ceph-osd.target; enabled; preset: enabled)
     Active: active since Fri 2024-10-25 17:17:28 CEST; 1 month 10 days ago

Oct 25 17:17:28 pve11 systemd[1]: Reached target ceph-osd.target - ceph target allowing to start/stop all ceph-osd@.service instances at once
[pve12 ~]# systemctl status ceph-mgr.target
● ceph-mgr.target - ceph target allowing to start/stop all ceph-mgr@.service instances at once
     Loaded: loaded (/lib/systemd/system/ceph-mgr.target; enabled; preset: enabled)
     Active: active since Fri 2024-10-25 17:17:38 CEST; 1 month 10 days ago

Oct 25 17:17:38 pve12 systemd[1]: Reached target ceph-mgr.target - ceph target allowing to start/stop all ceph-mgr@.service instances at once.
OK [pve12 ~]# systemctl status ceph-mon.target
● ceph-mon.target - ceph target allowing to start/stop all ceph-mon@.service instances at once
     Loaded: loaded (/lib/systemd/system/ceph-mon.target; enabled; preset: enabled)
     Active: active since Fri 2024-10-25 17:17:38 CEST; 1 month 10 days ago

Oct 25 17:17:38 pve12 systemd[1]: Reached target ceph-mon.target - ceph target allowing to start/stop all ceph-mon@.service instances at once.
OK [pve12 ~]# systemctl status ceph-osd.target
● ceph-osd.target - ceph target allowing to start/stop all ceph-osd@.service instances at once
     Loaded: loaded (/lib/systemd/system/ceph-osd.target; enabled; preset: enabled)
     Active: active since Fri 2024-10-25 17:17:38 CEST; 1 month 10 days ago

Oct 25 17:17:38 pve12 systemd[1]: Reached target ceph-osd.target - ceph target allowing to start/stop all ceph-osd@.service instances at once.

Grüße und Dank im Voraus
Ich würde mir anschauen ob die Version der Konfigurationen alle gleich sind. Wenn nicht dann den Host mit der höchsten Version nehmen. Alle Mon und Mgr stoppen, die Konfiguration nach der Anleitung von Ceph.org modifizieren, dass nur ein Mon in der Konfiguration steht. Diesen starten und wenn der alle OSDs erreichen kann, sollten die Daten wieder zugreifbar sein. Dann zuerst ein Backup erstellen.


The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!