Auf einem Thomas-Krenn-Server extra für CEPH/PVE erhalten wir von den NVME-Disks (WD mit aktueller Firmware) immer wieder folgende Meldungen im Syslog von wechselnden OSDs.
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.432+0200 7fbecf9d2700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 1
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.432+0200 7fbed39da700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 3
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.436+0200 7fbed49dc700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 10
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.436+0200 7fbed21d7700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 8
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed11d5700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 2
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed29d8700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 3
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed01d3700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 2
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed61df700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 4
May 20 16:03:57 RZB-APVE1 pmxcfs[3705]: [status] notice: received log
May 20 16:04:19 RZB-APVE1 pmxcfs[3705]: [status] notice: received log
May 20 16:05:21 RZB-APVE1 ceph-osd[3845]: 2022-05-20T16:05:21.593+0200 7fd4e7c44700 -1 bdev(0x55de94e4e400 /var/lib/ceph/osd/ceph-6/block) aio_submit retries 1
May 20 16:05:21 RZB-APVE1 ceph-osd[3845]: 2022-05-20T16:05:21.597+0200 7fd4e8445700 -1 bdev(0x55de94e4e400 /var/lib/ceph/osd/ceph-6/block) aio_submit retries 6
May 20 16:06:45 RZB-APVE1 ceph-osd[3845]: 2022-05-20T16:06:45.482+0200 7fd4eac4a700 -1 bdev(0x55de94e4e400 /var/lib/ceph/osd/ceph-6/block) aio_submit retries 1
Wir hatten dazu schon das hier gefunden: https://tracker.ceph.com/issues/19511
Als auch das hier: https://ceph-users.ceph.narkive.com...-lib-ceph-osd-ceph-x-block-aio-submit-retries
Ich werde aber nicht recht schlau daraus. Den "bdev_aio_max_queue_depth" haben wir schon hochgesetzt auf: 4096 das hat aber soweit erkennbar nichts geändert...
Vielleicht hat da ja jemand eine Idee zu?
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.432+0200 7fbecf9d2700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 1
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.432+0200 7fbed39da700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 3
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.436+0200 7fbed49dc700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 10
May 20 16:03:17 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:17.436+0200 7fbed21d7700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 8
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed11d5700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 2
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed29d8700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 3
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed01d3700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 2
May 20 16:03:45 RZB-APVE1 ceph-osd[3859]: 2022-05-20T16:03:45.975+0200 7fbed61df700 -1 bdev(0x55ab04e75000 /var/lib/ceph/osd/ceph-5/block) aio_submit retries 4
May 20 16:03:57 RZB-APVE1 pmxcfs[3705]: [status] notice: received log
May 20 16:04:19 RZB-APVE1 pmxcfs[3705]: [status] notice: received log
May 20 16:05:21 RZB-APVE1 ceph-osd[3845]: 2022-05-20T16:05:21.593+0200 7fd4e7c44700 -1 bdev(0x55de94e4e400 /var/lib/ceph/osd/ceph-6/block) aio_submit retries 1
May 20 16:05:21 RZB-APVE1 ceph-osd[3845]: 2022-05-20T16:05:21.597+0200 7fd4e8445700 -1 bdev(0x55de94e4e400 /var/lib/ceph/osd/ceph-6/block) aio_submit retries 6
May 20 16:06:45 RZB-APVE1 ceph-osd[3845]: 2022-05-20T16:06:45.482+0200 7fd4eac4a700 -1 bdev(0x55de94e4e400 /var/lib/ceph/osd/ceph-6/block) aio_submit retries 1
Wir hatten dazu schon das hier gefunden: https://tracker.ceph.com/issues/19511
Als auch das hier: https://ceph-users.ceph.narkive.com...-lib-ceph-osd-ceph-x-block-aio-submit-retries
Ich werde aber nicht recht schlau daraus. Den "bdev_aio_max_queue_depth" haben wir schon hochgesetzt auf: 4096 das hat aber soweit erkennbar nichts geändert...
Vielleicht hat da ja jemand eine Idee zu?