Problem mit Ceph Storage (unter anderem kein klonen einer VM möglich)

Apr 6, 2018
11
0
6
44
Hallo,

wir haben einen Proxmox Cluster mit 3 Nodes installiert.

Jede Maschine hat 128 GB RAM und 2 ssd für das Proxmox System installiert.
Zusätzlich sind in jeder Maschine 2 physikalische CPU mit je mindestens 6 Cores installiert.
Für das CEPH System sind pro Server je 2 SSD's der Modellnummer XA1920LE10063 verbaut.
Die Platten sind direkt an einen HBA Angeschlossen.
Tests mit FIO ergeben gute Werte sowohl bei Schreib als auch bei Lesezugriffen.

Allerdings bekommen wir die Fehlermeldung "trying to acquire cfs lock 'storage-vms' beim Versuch eine VM auf eine andere Node zu klonen.
Beim Clonen einer VM auf dieselbe Node haben wir extrem langsame Zugriffszeiten.
Wird der Task gestoppt bleibt das "removen" de images "hängen".

Testweise habe ich dann eine zuvor erstelle 300 GB Festplatte über die Gui gelöscht. Dies dauerte ca. 3 Minuten!

Wir bitten Sie hiermit um Unterstützung bei der Problematik da wir mittlerweile mit dem Setup für unser Rechenzentrum auf Grund der Analyse und Recherche (leider erfolglos) schon sehr in Zeitverzug sind.

Im Anhang finden Sie die Screenshots der Fehler sowie den output vom FIO Test.
Sollten weitere Informationen zu unserem Setup nötig sein reichen wir dieses natürlich gerne nach!

Ich bedanke mich im Vorhinein für Ihre Unterstützung
 

Attachments

  • Fehler_beim_Klonen_von_einem_node_auf_einen_anderen.jpg
    Fehler_beim_Klonen_von_einem_node_auf_einen_anderen.jpg
    99.3 KB · Views: 3
  • Fehler_beim_stoppen-des-Klon-Tasks.jpg
    Fehler_beim_stoppen-des-Klon-Tasks.jpg
    111.3 KB · Views: 3
  • fio_read.jpg
    fio_read.jpg
    233.7 KB · Views: 4
  • Fio_Write.jpg
    Fio_Write.jpg
    265.2 KB · Views: 4
  • Klonen-im-selben_node.jpg
    Klonen-im-selben_node.jpg
    159.1 KB · Views: 4
Tests mit FIO ergeben gute Werte sowohl bei Schreib als auch bei Lesezugriffen.
Bitte die FIO Tests mit 4k laufen lassen, da mit 4 MiB Blöcken lediglich die Bandbreite gemessen wird. Und wie man sieht, liegt das schon am Ende von SATA.

Jede Maschine hat 128 GB RAM und 2 ssd für das Proxmox System installiert.
Zusätzlich sind in jeder Maschine 2 physikalische CPU mit je mindestens 6 Cores installiert.
Für das CEPH System sind pro Server je 2 SSD's der Modellnummer XA1920LE10063 verbaut.
Die Platten sind direkt an einen HBA Angeschlossen.
Welche Hardware wird für das Netzwerk verwendet? Wie schaut die Ceph Konfiguration aus (ceph.conf)? Auch ein ceph osd df tree und ein ceph -s wären super. :)
 
Hallo Alwin,

danke für die rasche Rückmeldung!
Im Anhang findest du die gewünschten FIO Tests mit 4k.
Als Netzwerkhardware verwenden wir "Dell EMC Networking S4128F" Switches, welche mit SFP+ zu SFP+ fähigen Netzwerkkarten verbunden sind.

ceph.conf:

Code:
root@pveNode01:~# cat /etc/ceph/ceph.conf
[global]
         auth_client_required = cephx
         auth_cluster_required = cephx
         auth_service_required = cephx
         cluster_network = 10.111.0.107/16
         fsid = 753816d6-6bb2-4867-9695-194f7baf3f73
         mon_allow_pool_delete = true
         mon_host = 10.110.0.101 10.110.0.102 10.110.0.107
         osd_pool_default_min_size = 2
         osd_pool_default_size = 3
         public_network = 10.110.0.107/16

[client]
         keyring = /etc/pve/priv/$cluster.$name.keyring

[mds]
         keyring = /var/lib/ceph/mds/ceph-$id/keyring

[mds.pveNode02]
         host = pveNode02
         mds standby for name = pve

[mds.pveNode07]
         host = pveNode07
         mds_standby_for_name = pve

root@pveNode01:~#

ceph osd df tree:

Code:
root@pveNode01:~# ceph osd df tree
ID CLASS WEIGHT   REWEIGHT SIZE    RAW USE DATA    OMAP   META     AVAIL   %USE VAR  PGS STATUS TYPE NAME
-1       10.47656        -  10 TiB  13 GiB 6.9 GiB 39 KiB  6.0 GiB  10 TiB 0.12 1.00   -        root default
-3        3.49219        - 3.5 TiB 4.3 GiB 2.3 GiB 16 KiB  2.0 GiB 3.5 TiB 0.12 1.00   -            host pveNode01
 2   ssd  1.74609  1.00000 1.7 TiB 2.4 GiB 1.4 GiB 16 KiB 1024 MiB 1.7 TiB 0.14 1.14 111     up         osd.2
 4   ssd  1.74609  1.00000 1.7 TiB 1.9 GiB 882 MiB    0 B    1 GiB 1.7 TiB 0.10 0.86  97     up         osd.4
-7        3.49219        - 3.5 TiB 4.3 GiB 2.3 GiB  8 KiB  2.0 GiB 3.5 TiB 0.12 1.00   -            host pveNode02
 1   ssd  1.74609  1.00000 1.7 TiB 2.0 GiB 1.0 GiB    0 B    1 GiB 1.7 TiB 0.11 0.93  85     up         osd.1
 5   ssd  1.74609  1.00000 1.7 TiB 2.3 GiB 1.3 GiB  8 KiB 1024 MiB 1.7 TiB 0.13 1.07 123     up         osd.5
-5        3.49219        - 3.5 TiB 4.3 GiB 2.3 GiB 15 KiB  2.0 GiB 3.5 TiB 0.12 1.00   -            host pveNode07
 0   ssd  1.74609  1.00000 1.7 TiB 2.4 GiB 1.4 GiB  7 KiB 1024 MiB 1.7 TiB 0.13 1.11 108     up         osd.0
 3   ssd  1.74609  1.00000 1.7 TiB 1.9 GiB 937 MiB  8 KiB 1024 MiB 1.7 TiB 0.11 0.89 100     up         osd.3
                     TOTAL  10 TiB  13 GiB 6.9 GiB 40 KiB  6.0 GiB  10 TiB 0.12
MIN/MAX VAR: 0.86/1.14  STDDEV: 0.01

ceph -s:

Code:
root@pveNode01:~# ceph -s
  cluster:
    id:     753816d6-6bb2-4867-9695-194f7baf3f73
    health: HEALTH_ERR
            126 scrub errors
            Possible data damage: 10 pgs inconsistent

  services:
    mon: 3 daemons, quorum pveNode01,pveNode02,pveNode07 (age 2w)
    mgr: pveNode07(active, since 3w)
    mds: iso:1 {0=pveNode02=up:active} 2 up:standby
    osd: 6 osds: 6 up (since 3w), 6 in (since 3w)

  data:
    pools:   4 pools, 208 pgs
    objects: 685 objects, 2.4 GiB
    usage:   13 GiB used, 10 TiB / 10 TiB avail
    pgs:     198 active+clean
             10  active+clean+inconsistent

root@pveNode01:~#
 

Attachments

  • fio_read_4k.jpg
    fio_read_4k.jpg
    272.3 KB · Views: 2
  • fio_write_4k.jpg
    fio_write_4k.jpg
    277.7 KB · Views: 2
Für die Scrub Errors am besten die Ceph Logs anschauen. Und am besten auch noch das Netzwerk.
 
Ich habe mir schon alle Logs angesehen. Ehrlich gesagt konnte ich da nicht viel mehr aufschlussreiches finden!
Was soll ich mir im Netzwerk genau anschauen?

EDIT: Jetzt habe ich tatsächlich etwas gefunden:

Code:
Mar  3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d shard 2 soid 5:b7fa6036:::rbd_data.10d1ce11e69ef.0000000000000007:head : candidate had a read error
Mar  3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d deep-scrub 0 missing, 7 inconsistent objects
Mar  3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d deep-scrub 7 errors
Mar  3 11:28:52 pveNode01 ceph-mon[96159]: 2020-03-03 11:28:52.420 7f58bb130700 -1 log_channel(cluster) log [ERR] : Health check update: 133 scrub errors (OSD_SCRUB_ERRORS)
Mar  3 11:28:52 pveNode01 ceph-mon[96159]: 2020-03-03 11:28:52.420 7f58bb130700 -1 log_channel(cluster) log [ERR] : Health check update: Possible data damage: 11 pgs inconsistent (PG_DAMAGED)

Welche mögliche Ursachen gibt es dafür? Die SSD's sind alle neu gekauft.
 
Last edited:
Mar 3 11:28:46 pveNode01 ceph-osd[99917]: 2020-03-03 11:28:46.336 7fe2e674f700 -1 log_channel(cluster) log [ERR] : 5.2d deep-scrub 7 errors
ceph pg repiar <pgid> um die PG zu reparieren. Aber warum diese kaput ist, geht daraus nicht hervor.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!