Problem mit Ceph Storage (unter anderem kein klonen einer VM möglich)

Alexander Marek · Mar 2, 2020

Hallo,

wir haben einen Proxmox Cluster mit 3 Nodes installiert.

Jede Maschine hat 128 GB RAM und 2 ssd für das Proxmox System installiert.
Zusätzlich sind in jeder Maschine 2 physikalische CPU mit je mindestens 6 Cores installiert.
Für das CEPH System sind pro Server je 2 SSD's der Modellnummer XA1920LE10063 verbaut.
Die Platten sind direkt an einen HBA Angeschlossen.
Tests mit FIO ergeben gute Werte sowohl bei Schreib als auch bei Lesezugriffen.

Allerdings bekommen wir die Fehlermeldung "trying to acquire cfs lock 'storage-vms' beim Versuch eine VM auf eine andere Node zu klonen.
Beim Clonen einer VM auf dieselbe Node haben wir extrem langsame Zugriffszeiten.
Wird der Task gestoppt bleibt das "removen" de images "hängen".

Testweise habe ich dann eine zuvor erstelle 300 GB Festplatte über die Gui gelöscht. Dies dauerte ca. 3 Minuten!

Wir bitten Sie hiermit um Unterstützung bei der Problematik da wir mittlerweile mit dem Setup für unser Rechenzentrum auf Grund der Analyse und Recherche (leider erfolglos) schon sehr in Zeitverzug sind.

Im Anhang finden Sie die Screenshots der Fehler sowie den output vom FIO Test.
Sollten weitere Informationen zu unserem Setup nötig sein reichen wir dieses natürlich gerne nach!

Ich bedanke mich im Vorhinein für Ihre Unterstützung

Alwin · Mar 2, 2020

Alexander Marek said:
Tests mit FIO ergeben gute Werte sowohl bei Schreib als auch bei Lesezugriffen.

Bitte die FIO Tests mit 4k laufen lassen, da mit 4 MiB Blöcken lediglich die Bandbreite gemessen wird. Und wie man sieht, liegt das schon am Ende von SATA.

Alexander Marek said:
Jede Maschine hat 128 GB RAM und 2 ssd für das Proxmox System installiert.
Zusätzlich sind in jeder Maschine 2 physikalische CPU mit je mindestens 6 Cores installiert.
Für das CEPH System sind pro Server je 2 SSD's der Modellnummer XA1920LE10063 verbaut.
Die Platten sind direkt an einen HBA Angeschlossen.

Welche Hardware wird für das Netzwerk verwendet? Wie schaut die Ceph Konfiguration aus (ceph.conf)? Auch ein ceph osd df tree und ein ceph -s wären super.

Alexander Marek · Mar 3, 2020

Hallo Alwin,

danke für die rasche Rückmeldung!
Im Anhang findest du die gewünschten FIO Tests mit 4k.
Als Netzwerkhardware verwenden wir "Dell EMC Networking S4128F" Switches, welche mit SFP+ zu SFP+ fähigen Netzwerkkarten verbunden sind.

ceph.conf:

Code:

root@pveNode01:~# cat /etc/ceph/ceph.conf
[global]
         auth_client_required = cephx
         auth_cluster_required = cephx
         auth_service_required = cephx
         cluster_network = 10.111.0.107/16
         fsid = 753816d6-6bb2-4867-9695-194f7baf3f73
         mon_allow_pool_delete = true
         mon_host = 10.110.0.101 10.110.0.102 10.110.0.107
         osd_pool_default_min_size = 2
         osd_pool_default_size = 3
         public_network = 10.110.0.107/16

[client]
         keyring = /etc/pve/priv/$cluster.$name.keyring

[mds]
         keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.pveNode02]
         host = pveNode02
         mds standby for name = pve

[mds.pveNode07]
         host = pveNode07
         mds_standby_for_name = pve

root@pveNode01:~#

ceph osd df tree:

Code:

root@pveNode01:~# ceph osd df tree
ID CLASS WEIGHT   REWEIGHT SIZE    RAW USE DATA    OMAP   META     AVAIL   %USE VAR  PGS STATUS TYPE NAME
-1       10.47656        -  10 TiB  13 GiB 6.9 GiB 39 KiB  6.0 GiB  10 TiB 0.12 1.00   -        root default
-3        3.49219        - 3.5 TiB 4.3 GiB 2.3 GiB 16 KiB  2.0 GiB 3.5 TiB 0.12 1.00   -            host pveNode01
 2   ssd  1.74609  1.00000 1.7 TiB 2.4 GiB 1.4 GiB 16 KiB 1024 MiB 1.7 TiB 0.14 1.14 111     up         osd.2
 4   ssd  1.74609  1.00000 1.7 TiB 1.9 GiB 882 MiB    0 B    1 GiB 1.7 TiB 0.10 0.86  97     up         osd.4
-7        3.49219        - 3.5 TiB 4.3 GiB 2.3 GiB  8 KiB  2.0 GiB 3.5 TiB 0.12 1.00   -            host pveNode02
 1   ssd  1.74609  1.00000 1.7 TiB 2.0 GiB 1.0 GiB    0 B    1 GiB 1.7 TiB 0.11 0.93  85     up         osd.1
 5   ssd  1.74609  1.00000 1.7 TiB 2.3 GiB 1.3 GiB  8 KiB 1024 MiB 1.7 TiB 0.13 1.07 123     up         osd.5
-5        3.49219        - 3.5 TiB 4.3 GiB 2.3 GiB 15 KiB  2.0 GiB 3.5 TiB 0.12 1.00   -            host pveNode07
 0   ssd  1.74609  1.00000 1.7 TiB 2.4 GiB 1.4 GiB  7 KiB 1024 MiB 1.7 TiB 0.13 1.11 108     up         osd.0
 3   ssd  1.74609  1.00000 1.7 TiB 1.9 GiB 937 MiB  8 KiB 1024 MiB 1.7 TiB 0.11 0.89 100     up         osd.3
                     TOTAL  10 TiB  13 GiB 6.9 GiB 40 KiB  6.0 GiB  10 TiB 0.12
MIN/MAX VAR: 0.86/1.14  STDDEV: 0.01

ceph -s:

Code:

root@pveNode01:~# ceph -s
  cluster:
    id:     753816d6-6bb2-4867-9695-194f7baf3f73
    health: HEALTH_ERR
            126 scrub errors
            Possible data damage: 10 pgs inconsistent

  services:
    mon: 3 daemons, quorum pveNode01,pveNode02,pveNode07 (age 2w)
    mgr: pveNode07(active, since 3w)
    mds: iso:1 {0=pveNode02=up:active} 2 up:standby
    osd: 6 osds: 6 up (since 3w), 6 in (since 3w)

  data:
    pools:   4 pools, 208 pgs
    objects: 685 objects, 2.4 GiB
    usage:   13 GiB used, 10 TiB / 10 TiB avail
    pgs:     198 active+clean
             10  active+clean+inconsistent

root@pveNode01:~#

Alwin · Mar 3, 2020

Für die Scrub Errors am besten die Ceph Logs anschauen. Und am besten auch noch das Netzwerk.

Alexander Marek · Mar 3, 2020

Ich habe mir schon alle Logs angesehen. Ehrlich gesagt konnte ich da nicht viel mehr aufschlussreiches finden!
Was soll ich mir im Netzwerk genau anschauen?

EDIT: Jetzt habe ich tatsächlich etwas gefunden:

Code:

Mar  3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d shard 2 soid 5:b7fa6036:::rbd_data.10d1ce11e69ef.0000000000000007:head : candidate had a read error
Mar  3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d deep-scrub 0 missing, 7 inconsistent objects
Mar  3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d deep-scrub 7 errors
Mar  3 11:28:52 pveNode01 ceph-mon[96159]: 2020-03-03 11:28:52.420 7f58bb130700 -1 log_channel(cluster) log [ERR] : Health check update: 133 scrub errors (OSD_SCRUB_ERRORS)
Mar  3 11:28:52 pveNode01 ceph-mon[96159]: 2020-03-03 11:28:52.420 7f58bb130700 -1 log_channel(cluster) log [ERR] : Health check update: Possible data damage: 11 pgs inconsistent (PG_DAMAGED)

Welche mögliche Ursachen gibt es dafür? Die SSD's sind alle neu gekauft.

Alwin · Mar 6, 2020

Alexander Marek said:
Mar 3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d deep-scrub 7 errors

ceph pg repiar <pgid> um die PG zu reparieren. Aber warum diese kaput ist, geht daraus nicht hervor.

Search

Search

Problem mit Ceph Storage (unter anderem kein klonen einer VM möglich)

Alexander Marek

Member

Attachments

Alwin

Proxmox Retired Staff

Alexander Marek

Member

Attachments

Alwin

Proxmox Retired Staff

Alexander Marek

Member

Alwin

Proxmox Retired Staff