Ceph degraded - wie debuggen?

pmdk

Member
Nov 8, 2021
35
1
13
57
Moin,
ein Ceph-Cluster meldet dauerhaft, dass 1/3 des Storage degraded ist. Alle Monitors, Managers und Meta Data Servers sind grün.

Gibt es ein paar hilfreiche Linke, wie ich am besten anfange, diese Situation zu verbessern?

Danke, Dirk
 

Attachments

  • Bildschirmfoto vom 2023-10-26 10-59-26.png
    Bildschirmfoto vom 2023-10-26 10-59-26.png
    170.7 KB · Views: 16
Moin, muss wohl der osd auf wkst01 sein:
root@wkst01:/var/log/ceph# ls -l *osd*
-rw-r--r-- 1 ceph ceph 0 Oct 15 00:00 ceph-osd.0.log
-rw-r--r-- 1 ceph ceph 114759 Oct 14 23:07 ceph-osd.0.log.1.gz
...
Bei den anderen beiden wird das Logfile aktuell bespielt.

Nur wie repariere ich den osd?

Ja, ich suche und lese in der Hilfestellung, werde aber nicht immer fündig. :-)
 
Ist wohl auf allen drei gleich:
root@wkst02:~# pveceph status
cluster:
id: 55989b43-6728-4f98-926b-65382a6d29e4
health: HEALTH_WARN
Degraded data redundancy: 80404/241212 objects degraded (33.333%), 33 pgs degraded, 33 pgs undersized
33 pgs not deep-scrubbed in time
33 pgs not scrubbed in time

services:
mon: 3 daemons, quorum wkst03,wkst01,wkst02 (age 11d)
mgr: wkst01(active, since 11d), standbys: wkst03, wkst02
osd: 3 osds: 2 up (since 11d), 2 in (since 7w)

data:
pools: 2 pools, 33 pgs
objects: 80.40k objects, 311 GiB
usage: 612 GiB used, 342 GiB / 954 GiB avail
pgs: 80404/241212 objects degraded (33.333%)
33 active+undersized+degraded

io:
client: 431 KiB/s rd, 439 KiB/s wr, 29 op/s rd, 61 op/s wr

-----
root@wkst01:~# pveceph osd --help
ERROR: unknown command 'pveceph osd --help'
USAGE: pveceph <COMMAND> [ARGS] [OPTIONS]
kennt nur:
pveceph osd create <dev> [OPTIONS]
pveceph osd destroy <osdid> [OPTIONS]
 
Hi, wenn du nur 2 OSD aktiv hast, ist das normal. Hast du die dritte OSD manuell out genommen? Wenn ja, nimm sie einfach wieder in. Wenn die OSD automatisch out gegangen ist, dann in der Regel wegen Fehlern. Kann am Kabel liegen oder defekte Disk.
 
Hi, wenn du nur 2 OSD aktiv hast, ist das normal. Hast du die dritte OSD manuell out genommen? Wenn ja, nimm sie einfach wieder in. Wenn die OSD automatisch out gegangen ist, dann in der Regel wegen Fehlern. Kann am Kabel liegen oder defekte Disk.
Ja, wahrscheinlich. Ich hatte iwie klarere Fehlermeldungen erhofft. :-)
 
Was genau hättest du dir erhofft?
Wenn man weiß, wie Ceph funktioniert, ist das eigentlich recht einfach nachzuvollziehen.