Ceph Cluster Datenrettung

mendikant · Sep 19, 2024

Hallo zusammen!

Ich habe ein Proxmox Cluster mit 3 Servern. Darauf ist ein Ceph cluster installiert. Dieses mit Separatem Subnetz auf separaten Netzwerkkarten. Das lief jetzt ziemlich genau ein Jahr ziemlich problemlos (Hab es letztes Jahr im September Urlaub aufgebaut, und jetzt ist gerade wieder September Urlaub.)
Dienstag abend stand das Cluster plötzlich still. Auf einem der Server war der OSD kaputt. Alles Mal rebooten, OSD neu machen und dem System die Nacht über Zeit lassen, dass wieder zu synchronisieren.
Mittwoch war dann nicht alles gut. Der eine neugebaute OSD kam zwar "up" lies sich aber nicht starten. Also nochmal neu gebaut. Ich habe keine Ahnung was passiert ist, auf einmal starten die Ceph Dienste gar nicht mehr vernünftig. In der Cluster-Übersicht sehe ich weder Manager noch Monitordienste laufen.
Gestern abend habe ich mir dann erstmal ne Pause verordnet und beschlossen ne nacht drüber zu schlafen.

Wenn ich das System sinnvoll umbaue, verzichte ich auf den CEPH Kram und das Cluster und baue alles auf eine Maschine. Dafür würde ich aber gerne die VMs nochmal aus dem Cephpool rausholen.

Code:

OK [pve11 dump]# tail -f  vzdump-qemu-100-2024_09_19-13_20_30.log
2024-09-19 13:20:30 INFO: Starting Backup of VM 100 (qemu)
2024-09-19 13:20:30 INFO: status = stopped
2024-09-19 13:20:30 INFO: backup mode: stop
2024-09-19 13:20:30 INFO: ionice priority: 7
2024-09-19 13:20:30 INFO: VM Name: hlcloud
2024-09-19 13:20:30 INFO: include disk 'scsi0' 'cephpool:vm-100-disk-2' 17G
2024-09-19 13:20:30 INFO: include disk 'scsi1' 'cephpool:vm-100-disk-3' 200G
2024-09-19 13:25:30 ERROR: Backup of VM 100 failed - cannot determine size of volume 'cephpool:vm-100-disk-2' - rbd error: rbd: couldn't connect to the Cluster

Ich gehe mal davon aus, dass ich da irgendwas machen kann? Oder muss ich da an einen anderen Dienst ran?

Code:

[pve11 dump]# systemctl status ceph-osd@1.service
× ceph-osd@1.service - Ceph object storage daemon osd.1
     Loaded: loaded (/lib/systemd/system/ceph-osd@.service; enabled-runtime; preset: enabled)
    Drop-In: /usr/lib/systemd/system/ceph-osd@.service.d
             └─ceph-after-pve-cluster.conf
     Active: failed (Result: exit-code) since Thu 2024-09-19 13:31:56 CEST; 12min ago
   Duration: 5min 35ms
    Process: 8589 ExecStartPre=/usr/libexec/ceph/ceph-osd-prestart.sh --cluster ${CLUSTER} --id 1 (code=exited, status=0/SUCCESS)
    Process: 8593 ExecStart=/usr/bin/ceph-osd -f --cluster ${CLUSTER} --id 1 --setuser ceph --setgroup ceph (code=exited, status=1/FAILURE)
   Main PID: 8593 (code=exited, status=1/FAILURE)
        CPU: 278ms

Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Scheduled restart job, restart counter is at 3.
Sep 19 13:31:56 pve11 systemd[1]: Stopped ceph-osd@1.service - Ceph object storage daemon osd.1.
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Start request repeated too quickly.
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Failed with result 'exit-code'.
Sep 19 13:31:56 pve11 systemd[1]: Failed to start ceph-osd@1.service - Ceph object storage daemon osd.1.
Error [pve11 dump]# systemctl start ceph-osd@1.service
Job for ceph-osd@1.service failed because the control process exited with error code.
See "systemctl status ceph-osd@1.service" and "journalctl -xeu ceph-osd@1.service" for details.
Error [pve11 dump]# journalctl -xeu ceph-osd@1.service
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░
░░ An ExecStart= process belonging to unit ceph-osd@1.service has exited.
░░
░░ The process' exit code is 'exited' and its exit status is 1.
Sep 19 13:31:46 pve11 systemd[1]: ceph-osd@1.service: Failed with result 'exit-code'.
░░ Subject: Unit failed
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░
░░ The unit ceph-osd@1.service has entered the 'failed' state with result 'exit-code'.

Vielen Dank im Voraus.
Christian

mendikant · Sep 19, 2024

Ich haue hier mal rein, was ich noch so probiere.

Code:

Error [pve12 ceph]# mount.ceph admin@c692fc67-d635-4eee-8653-60c85f468b92.cephfs=/ /mnt/test/
mount error: no mds server is up or the cluster is laggy

aaron · Sep 19, 2024

Was gibt denn ceph -s zurück?
Laufen die anderen Dienste im Cluster? MONs, MGRs, MDS' und OSDs?

Das Netzwerk für Ceph läuft auch noch? Evtl eine große MTU konfiguriert? Falls ja, gehen große Pakete auch noch darüber?

Code:

ping -M do -s 8972 {target host}

mendikant · Sep 23, 2024

Hey Aaron, danke für die Rückfragen, ich melde mich die Tage, ich liege mit ner Erkältung flach, die lässt mich gerade nicht viel machen...

mendikant · Oct 25, 2024

So, ich habe endlich wieder Zeit für die Problematik.
Hier ein paar Info zu den MAschinen:

pve10 pve11 pve12
Ceph Subnetz 10.10.1.0/24
pve10 10.10.1.110
pve11 10.10.1.111
pve12 10.10.1.112

Normaler Ping geht, ich hatte die MTU immer auf 1500 gelassen, ob dass Schuld für meine Performance Probleme war? keine Ahnung.
Die Anpassung der MTU Hat aber nicht funktioniert. (Was erstmal egal wäre, wenn ich die zwei oder drei wichtigen virtuellen Maschinen da nochmal rauskriege, dann baue ich das auf einen Server um. )

ceph -s kommt nicht zurück.

Aktuell sehe ich in der Proxmox oberfläche nichts: Keine OSD, keine Manager, keinen monitor

Bash:

[pve12 ~]# systemctl status ceph
ceph-crash.service                                              ceph-mon@pve12.service                                          ceph.target
ceph-fuse.target                                                ceph-mon.target                                                 ceph-volume@lvm-1-d04e59fc-ff24-4289-abc8-53d14c0548d9.service
ceph-mds.target                                                 ceph-osd@2.service                                              ceph-volume@lvm-2-da6257ec-5cfd-48a4-bbe9-763bb0f16e25.service
ceph-mgr.target                                                 ceph-osd.target                                                 

[pve11 ~]# systemctl status ceph
ceph-crash.service                                              ceph-mgr.target                                                 ceph.target
ceph-fuse.target                                                ceph-mon@pve11.service                                          ceph-volume@lvm-0-a3eac62a-d950-4f81-9992-8087cb706c80.service
ceph-mds@pve11.service                                          ceph-mon.target                                                 ceph-volume@lvm-1-ae17daf1-4fe8-42be-85f9-3d0af1cb0799.service
ceph-mds.target                                                 ceph-osd@1.service                                             
ceph-mgr@pve11.service                                          ceph-osd.target   

[pve10 ~]# systemctl status ceph
ceph-crash.service                                              ceph-mon.target                                                 ceph-volume@lvm-0-5f51e835-8cc9-44aa-9000-da2c5c6d0bb6.service
ceph-fuse.target                                                ceph-osd.target                                                 ceph-volume@lvm-2-8682925f-02ae-400b-88f3-b1ce2f83f12f.service
ceph-mds.target                                                 ceph.target                                                     ceph-volume@lvm-3-0a2d8310-08dc-4955-a1cf-81b7a894bbe2.service
ceph-mgr.target                                                 ceph-volume@lvm-0-2f2d723f-ec3f-4a1c-8b2a-d4dbd73a716c.service

Das sind die Stati, die ich mir angucken könnte. Wo fange ich am besten an??? Bevor ich wild probiere und noch mehr kaputt mache...

Danke und Grüße
Christian

Falk R. · Oct 25, 2024

Hängt das ceph -s oder bekommst du irgend eine Fehlermeldung oder etwas anderes angezeigt?

Check noch einmal das Netzwerk komplett, Jumbo Frames würde ich erst einmal aus lassen. Das kann etwas Performance bringen, aber die Jumbo Frames machen aus einem Golf auch keinen Porsche.

Dann mal den Status vom ceph-mgr und ceph-mon sowie die ceph-osd services abfragen.

Search

Search

Ceph Cluster Datenrettung

mendikant

New Member

mendikant

New Member

aaron

Proxmox Staff Member

mendikant

New Member

mendikant

New Member

Falk R.

Distinguished Member