Search results

  1. Ingo S

    Ceph PG repair failed

    SMART sagt, alles ist fein. Aaaaaber in den letzten Tagen sind noch mehr scrub Error aufgetreten und in ALLEN war OSD 14 beteiligt. Ein blick ins Kernel LOG zeigte folgendes: critical medium error, dev sdd, sector 49197368 op 0x0:(READ) flags 0x0 phys_seg 64 prio class 0 [905890.435728] sd...
  2. Ingo S

    Ceph PG repair failed

    So, ich war die ganze Zeit über krank. Jetzt muss ich das nochmal von vorn aufrollen. Ich brauche da mal einen kleinen Schubser: Wie zur Hölle bin ich an den o.a. Log Eintrag gekommen? Ich finde den nicht wieder :oops: Zur Frage: Nein, dies war die einzige Meldung zu diesem Scrub. Mittlerweile...
  3. Ingo S

    Ceph PG repair failed

    Hallo zusammen Scheinbar ist eine PG in unserem Ceph Storage defekt. Sie lässt sich auch nicht reparieren. Die Logmeldung aus einem deep-scrub sieht wie folgt aus: 2024-09-17T16:12:44.448753+0200 osd.0 [ERR] 7.1aa soid 7:55a66cb1:::rbd_data.500bf7d81c73b3.000000000003a216:head : data_digest...
  4. Ingo S

    [SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

    Super, vielen Dank! Das wars! (Da man das so selten braucht, vergisst man sowas zu leicht)
  5. Ingo S

    [SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

    Danke erstmal. Entfernen lies sich der Monitor Node. Aber er lässt sich nicht neu installieren. Ich bekomme die Meldung das die IP bereits in Verwendung ist. Ich vermute, da ist doch noch irgendwo ein Rest konfig vom Monitor, evtl im pvecfs?
  6. Ingo S

    [SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

    Das hat erstaunlich gut geklappt. Server neu installieren Alle Netzwerkverbindungen wiederherstellen Alten Server wie im Wiki beschrieben aus dem Cluster entfernen Neuen Server über die Join Informationen in den Cluster aufnehmen Ceph auf dem neuen Node installieren Ggf. Manager neu einrichten...
  7. Ingo S

    [SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

    Super, vielen Dank. Das werde ich testen. Vor Jahren hat das Reaktivieren bestehender OSDs auf neuen Installationen nicht wirklich geklappt. Aber möglicherweise hat sich das mit den Updates über die Jahre verbessert.
  8. Ingo S

    [SOLVED] Bestes Vorgehen bei Ausfall eines Cluster Nodes incl. Ceph

    Hallo zusammen Vorhin ist uns in unserem 6 Node Cluster ein Node ausgefallen, da sich die OS SSD verabschiedet hat. Die VMs haben wir auf dem Rest des Clusters wieder gestartet. Da der Node aber auch Teil des Ceph ist, überlege ich jetzt, wie das sinnvollste Vorgehen aussieht. Auf dem Server...
  9. Ingo S

    Problem: L2 Broadcasts not arriving at DHCP Server

    Hi all Lately i've been struggling with our DHCP Server. I'm running an isc-dhcp server on a debian VM. This VM has a network interface on vlan 104 (user net) and on vlan 101 (server net). Communication on vlan 104 is working, to all devices on vlan 104 (ping) without issues. BUT if my PC, or...
  10. Ingo S

    Bug? Ceph Pool Größe variiert je nach Füllstand

    :D :P Ich finds ja gut. So sieht man auch mal, wie andere damit umgehen. Da kann man nur lernen. Hmm jaein... Ich würde mir das so vorstellen: Der Pool zeigt den gesamten Speicherplatz aller beteiligten OSDs als RAW Value an. Z.B. 100TB Wenn ich dann 2 Pools habe, geht halt vom verfügbaren...
  11. Ingo S

    Bug? Ceph Pool Größe variiert je nach Füllstand

    Uff, mehr Diskussion als ich erwartet hatte :p:D Also wir nutzen schon seit vielen Jahren Ceph als Storage backend und ich muss sagen, dass mir dieses Verhalten vorher noch nie aufgefallen war. Ich persönlich finde es am konsistentesten wenn die Größe des Pools einfach der Summe des...
  12. Ingo S

    Bug? Ceph Pool Größe variiert je nach Füllstand

    Hallo zusammen Ich habe unseren SSD Pool ein wenig aufgeräumt und dabei ist mir aufgefallen, dass die Gesamtgröße des Pools variiert, je nachdem wie voll der Pool ist. Wie kann das sein? Die Datenträger haben doch eine fixe Größe unabhängig davon wie viele Daten gespeichert sind. In älteren...
  13. Ingo S

    Poor write performance on ceph backed virtual disks.

    I confused something. We had an incident where the OS disk of a Server died. This was, when the VMs were down and we got them up on another node in 10min. When a DB/WAL SSD died, the VMs were not down, but we needed to shut down the Server to replace the NVME Drive, so we live migrated the VMs.
  14. Ingo S

    Poor write performance on ceph backed virtual disks.

    While we had our fair share of Problems with Ceph in the past, mostly due to inexperience, what would bite us? I mean in terms of storing our data reliably und running consistently? That's a valid point. Good thing is, our new cluster isn't set in stone yet. It's probably a good idea, to assess...
  15. Ingo S

    Poor write performance on ceph backed virtual disks.

    Yeah, true, that can happen. We run a 2/3 replica on a 6 Node Cluster and we had one node come down with a failed DB/WAL disc. But frankly, that was really not much of a deal. We moved all affected VMs to another node. After 10min we had all affected VMs running again, after 1 day of rebalance...
  16. Ingo S

    Poor write performance on ceph backed virtual disks.

    That's absolutely a valid strategy. Most of the Data that's idle is SMB Shares with files for daily work. So it's not totally idle, just not used very much, but still used. Lots of that is documents and invoices in our document management system and financial accounting. There is not much of a...
  17. Ingo S

    Poor write performance on ceph backed virtual disks.

    Sadly, thats not possible. We need about 15-20TB Storage, so around 45-60TB RAW. Much of that is very idle data. But IF some of that has to move, these speeds are really not great. Our databases and other high io stuff like web pages, applications etc. already are on SAS SSDs. Space there is...
  18. Ingo S

    Poor write performance on ceph backed virtual disks.

    So, i did a little digging. Ceph and its various services/tools have such a ton of features, settings, values and metrics, that it is really hard to get into it, if you are not a specially trained professional, e.g. just a "normal" IT Gui to manage a small to medium sized Cluster. I found some...
  19. Ingo S

    Poor write performance on ceph backed virtual disks.

    That balance time is just... I need to clear one Server at a time, destroy the OSDs, reduce to three per node, then create new OSDs with the properly sized DB/WAL. Clearing a Server is about 20h. Backfill starts with about 400-500MB/s and reduces over time to a crawl. All of this while the...
  20. Ingo S

    Poor write performance on ceph backed virtual disks.

    Yeah i can totally see that. I just did some maths on our cluster and yeah we need to resize down to 2-3OSDs per Server to get away with our 375GB DB/WAL SSDs. Luckily we can shrink it down that much. I just started moving EVERYTHING around and reconfiguring the OSDs. This will take about 1-2...