Yeah, true, that can happen. We run a 2/3 replica on a 6 Node Cluster and we had one node come down with a failed DB/WAL disc. But frankly, that was really not much of a deal. We moved all affected VMs to another node. After 10min we had all affected VMs running again, after 1 day of rebalance...
That's absolutely a valid strategy. Most of the Data that's idle is SMB Shares with files for daily work. So it's not totally idle, just not used very much, but still used. Lots of that is documents and invoices in our document management system and financial accounting.
There is not much of a...
Sadly, thats not possible. We need about 15-20TB Storage, so around 45-60TB RAW. Much of that is very idle data. But IF some of that has to move, these speeds are really not great.
Our databases and other high io stuff like web pages, applications etc. already are on SAS SSDs. Space there is...
So, i did a little digging.
Ceph and its various services/tools have such a ton of features, settings, values and metrics, that it is really hard to get into it, if you are not a specially trained professional, e.g. just a "normal" IT Gui to manage a small to medium sized Cluster.
I found some...
That balance time is just... I need to clear one Server at a time, destroy the OSDs, reduce to three per node, then create new OSDs with the properly sized DB/WAL.
Clearing a Server is about 20h. Backfill starts with about 400-500MB/s and reduces over time to a crawl.
All of this while the...
Yeah i can totally see that.
I just did some maths on our cluster and yeah we need to resize down to 2-3OSDs per Server to get away with our 375GB DB/WAL SSDs. Luckily we can shrink it down that much.
I just started moving EVERYTHING around and reconfiguring the OSDs. This will take about 1-2...
Oh man... this is great news.
I just checked ceph daemon osd.x perf dump and yeah, I guess we are using too small WAL/DB as well.
The slow bytes part is this one here?
"bluefs": {
"db_total_bytes": 62495121408,
"db_used_bytes": 5754585088,
"wal_total_bytes": 0...
Danke erstmal
Ich habe mit dem Query etwas rum gespielt, aber wirklich schlauer bin ich daraus nicht geworden.
Wenn ich nach recovery gucke finde ich nichts besonderes:
Und wenn ich nach blocked suche springt mir auch nichts ins Auge.
Wir haben mit dem Ceph schon einiges erlebt, aber noch nie...
Die Ratios sind so:
root@vm-1:~# ceph osd dump | grep ratio
full_ratio 0.95
backfillfull_ratio 0.9
nearfull_ratio 0.85
Das wiederum sagt:
root@vm-1:~# ceph df
--- RAW STORAGE ---
CLASS SIZE AVAIL USED RAW USED %RAW USED
hdd 88 TiB 51 TiB 38 TiB 38 TiB 42.73
ssd 20...
Die SSD ist absichtlich out, die soll den Node wechseln. Die habe ich bereits leer geräumt und liegt bei mir auf dem Schreibtisch. Der Cluster war vor dem Einbau der neuen SSD healthy.
Hallo zusammen
Wir haben in unserem Ceph Cluster einen SSD Pool, den ich gerade erweitere, weil er langsam zu voll wird. Ich habe eine zusätzliche SSD eingesetzt und warte jetzt auf den Backfill.
Interessanterweise ist aber immer nur ein einziger Backfill aktiv, egal auf was ich "osd max...
Thank you all for your efforts in investigating this Problem.
I ran into this problem too and after reading this thread I'm not entirely sure if I can safely disable the offending module (restful in this case)
Is it used just for the dashboard, or did I break something else by disabling it? :eek:
Spannenderweise funktioniert es jetzt.
Leider bin ich nicht 100% sicher, was ich getan habe.
Firmware Update durchgeführt
Um das Firmware Update durchzuführen habe ich das Instant Flash Tool aus dem UEFI Setup ausgeführt. Das Board hatte aber die komische Anwandlung, wenn man es eingeschaltet...
Hmm das klingt nach einem ähnlichen Problem. Allerdings mit anderer Kernel Meldung und ich habe eben den alten PVE Kernel 5.15 probiert, auch damit habe ich kein Glück.
Außerdem habe ich noch festgestellt, das mein PC mpt3sas Version 43.100... verwendet, während pve die mpt3sas Version 40.100...
Das habe ich heut Morgen direkt mal getestet, leider ohne Erfolg.
Ich bin jetzt aber noch über folgende Meldungen des Treibers mpt3sas beim booten gestolpert und ich bin ziemlich sicher, dass die was damit zu tun haben. Das ist nämlich das letzte Mal, das der Kernel mit dem mpt3sas Treiber...
Moin zusammen
Zu Testzwecken hatte ich einen LSI 9400 8i HBA in einen PC eingebaut und SAS SSDs angeschlossen. Das hat Problemlos funktioniert.
Diesen Controller habe ich nun auf ein Mainboard ASRock Rack B650 D4U gesteckt und Proxmox gebootet (Das soll mal ein Server werden)
Jedenfalls wurde...
Hallo
Mir ist ein Fehler im Artikel zu xenmigrate aufgefallen, als wir eine Xen Maschine nach Proxmox exportieren wollten.
https://pve.proxmox.com/wiki/Xenmigrate
In den Befehl ganz unten auf der Seite muss es nicht -convert heißen, sondern --convert, oder -c
Bin gerade ziemlich darüber...
Ich wollte gern das Ceph Dashboard aktivieren und habe dazu dieses Tutorial gefunden:
https://forum.proxmox.com/threads/nautilus-activating-ceph-dashboard.85961/
Nachdem ich alle Schritte aus dem ersten Post erfolgreich durchgeführt habe, muss ja der Ceph Manager neu gestartet werden. Das...
This site uses cookies to help personalise content, tailor your experience and to keep you logged in if you register.
By continuing to use this site, you are consenting to our use of cookies.