Hallo zusammen!
Ich habe ein Proxmox Cluster mit 3 Servern. Darauf ist ein Ceph cluster installiert. Dieses mit Separatem Subnetz auf separaten Netzwerkkarten. Das lief jetzt ziemlich genau ein Jahr ziemlich problemlos (Hab es letztes Jahr im September Urlaub aufgebaut, und jetzt ist gerade wieder September Urlaub.)
Dienstag abend stand das Cluster plötzlich still. Auf einem der Server war der OSD kaputt. Alles Mal rebooten, OSD neu machen und dem System die Nacht über Zeit lassen, dass wieder zu synchronisieren.
Mittwoch war dann nicht alles gut. Der eine neugebaute OSD kam zwar "up" lies sich aber nicht starten. Also nochmal neu gebaut. Ich habe keine Ahnung was passiert ist, auf einmal starten die Ceph Dienste gar nicht mehr vernünftig. In der Cluster-Übersicht sehe ich weder Manager noch Monitordienste laufen.
Gestern abend habe ich mir dann erstmal ne Pause verordnet und beschlossen ne nacht drüber zu schlafen.
Wenn ich das System sinnvoll umbaue, verzichte ich auf den CEPH Kram und das Cluster und baue alles auf eine Maschine. Dafür würde ich aber gerne die VMs nochmal aus dem Cephpool rausholen.
Ich gehe mal davon aus, dass ich da irgendwas machen kann? Oder muss ich da an einen anderen Dienst ran?
Vielen Dank im Voraus.
Christian
Ich habe ein Proxmox Cluster mit 3 Servern. Darauf ist ein Ceph cluster installiert. Dieses mit Separatem Subnetz auf separaten Netzwerkkarten. Das lief jetzt ziemlich genau ein Jahr ziemlich problemlos (Hab es letztes Jahr im September Urlaub aufgebaut, und jetzt ist gerade wieder September Urlaub.)
Dienstag abend stand das Cluster plötzlich still. Auf einem der Server war der OSD kaputt. Alles Mal rebooten, OSD neu machen und dem System die Nacht über Zeit lassen, dass wieder zu synchronisieren.
Mittwoch war dann nicht alles gut. Der eine neugebaute OSD kam zwar "up" lies sich aber nicht starten. Also nochmal neu gebaut. Ich habe keine Ahnung was passiert ist, auf einmal starten die Ceph Dienste gar nicht mehr vernünftig. In der Cluster-Übersicht sehe ich weder Manager noch Monitordienste laufen.
Gestern abend habe ich mir dann erstmal ne Pause verordnet und beschlossen ne nacht drüber zu schlafen.
Wenn ich das System sinnvoll umbaue, verzichte ich auf den CEPH Kram und das Cluster und baue alles auf eine Maschine. Dafür würde ich aber gerne die VMs nochmal aus dem Cephpool rausholen.
Code:
OK [pve11 dump]# tail -f vzdump-qemu-100-2024_09_19-13_20_30.log
2024-09-19 13:20:30 INFO: Starting Backup of VM 100 (qemu)
2024-09-19 13:20:30 INFO: status = stopped
2024-09-19 13:20:30 INFO: backup mode: stop
2024-09-19 13:20:30 INFO: ionice priority: 7
2024-09-19 13:20:30 INFO: VM Name: hlcloud
2024-09-19 13:20:30 INFO: include disk 'scsi0' 'cephpool:vm-100-disk-2' 17G
2024-09-19 13:20:30 INFO: include disk 'scsi1' 'cephpool:vm-100-disk-3' 200G
2024-09-19 13:25:30 ERROR: Backup of VM 100 failed - cannot determine size of volume 'cephpool:vm-100-disk-2' - rbd error: rbd: couldn't connect to the Cluster
Ich gehe mal davon aus, dass ich da irgendwas machen kann? Oder muss ich da an einen anderen Dienst ran?
Code:
[pve11 dump]# systemctl status ceph-osd@1.service
× ceph-osd@1.service - Ceph object storage daemon osd.1
Loaded: loaded (/lib/systemd/system/ceph-osd@.service; enabled-runtime; preset: enabled)
Drop-In: /usr/lib/systemd/system/ceph-osd@.service.d
└─ceph-after-pve-cluster.conf
Active: failed (Result: exit-code) since Thu 2024-09-19 13:31:56 CEST; 12min ago
Duration: 5min 35ms
Process: 8589 ExecStartPre=/usr/libexec/ceph/ceph-osd-prestart.sh --cluster ${CLUSTER} --id 1 (code=exited, status=0/SUCCESS)
Process: 8593 ExecStart=/usr/bin/ceph-osd -f --cluster ${CLUSTER} --id 1 --setuser ceph --setgroup ceph (code=exited, status=1/FAILURE)
Main PID: 8593 (code=exited, status=1/FAILURE)
CPU: 278ms
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Scheduled restart job, restart counter is at 3.
Sep 19 13:31:56 pve11 systemd[1]: Stopped ceph-osd@1.service - Ceph object storage daemon osd.1.
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Start request repeated too quickly.
Sep 19 13:31:56 pve11 systemd[1]: ceph-osd@1.service: Failed with result 'exit-code'.
Sep 19 13:31:56 pve11 systemd[1]: Failed to start ceph-osd@1.service - Ceph object storage daemon osd.1.
Error [pve11 dump]# systemctl start ceph-osd@1.service
Job for ceph-osd@1.service failed because the control process exited with error code.
See "systemctl status ceph-osd@1.service" and "journalctl -xeu ceph-osd@1.service" for details.
Error [pve11 dump]# journalctl -xeu ceph-osd@1.service
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░
░░ An ExecStart= process belonging to unit ceph-osd@1.service has exited.
░░
░░ The process' exit code is 'exited' and its exit status is 1.
Sep 19 13:31:46 pve11 systemd[1]: ceph-osd@1.service: Failed with result 'exit-code'.
░░ Subject: Unit failed
░░ Defined-By: systemd
░░ Support: https://www.debian.org/support
░░
░░ The unit ceph-osd@1.service has entered the 'failed' state with result 'exit-code'.
Vielen Dank im Voraus.
Christian