LTO9 Bachup Geschwindigkeit

Nov 13, 2023
18
0
1
Hallo,

wir haben einen Loader mit einen LTO9 Drive direkt am PBS im Einsatz.
Aktueller lokaler Performance Benchmark PBS:

1702882085947.png

LTO9 Schreibgeschwigkeit:

1702882187391.png

Das muss doch was faul sein, oder ?
Hat hier jemand vergleichbare miese Werte ?
Oder hat jemand tuning Tipps ?

Danke schon mal
 
Kein SSD/NVMe Datastore?

=> bitte um Details zum Datastore (Hardware, Konfiguration)
 
Kein SSD/NVMe Datastore?

=> bitte um Details zum Datastore (Hardware, Konfiguration)
pool: rpool state: ONLINE scan: scrub repaired 0B in 00:00:37 with 0 errors on Sun Dec 10 00:24:38 2023 config: NAME STATE READ WRITE CKSUM rpool ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 nvme-eui.000000000000000100a075223a4e6419-part3 ONLINE 0 0 0 nvme-eui.8ce38e1000429f3d-part3 ONLINE 0 0 0 errors: No known data errors pool: tank state: ONLINE scan: scrub repaired 0B in 1 days 13:07:06 with 0 errors on Mon Dec 11 13:31:09 2023 remove: Removal of vdev 13 copied 79.3M in 0h0m, completed on Mon Nov 13 09:00:40 2023 17.0K memory used for removed device mappings config: NAME STATE READ WRITE CKSUM tank ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 sda ONLINE 0 0 0 sdb ONLINE 0 0 0 mirror-1 ONLINE 0 0 0 sdc ONLINE 0 0 0 sdd ONLINE 0 0 0 mirror-2 ONLINE 0 0 0 sde ONLINE 0 0 0 sdf ONLINE 0 0 0 mirror-3 ONLINE 0 0 0 sdg ONLINE 0 0 0 sdh ONLINE 0 0 0 mirror-4 ONLINE 0 0 0 sdi ONLINE 0 0 0 sdj ONLINE 0 0 0 mirror-5 ONLINE 0 0 0 sdk ONLINE 0 0 0 sdl ONLINE 0 0 0 mirror-6 ONLINE 0 0 0 sdm ONLINE 0 0 0 sdn ONLINE 0 0 0 mirror-7 ONLINE 0 0 0 sdo ONLINE 0 0 0 sdp ONLINE 0 0 0 mirror-8 ONLINE 0 0 0 sdq ONLINE 0 0 0 sdr ONLINE 0 0 0 mirror-9 ONLINE 0 0 0 sds ONLINE 0 0 0 sdt ONLINE 0 0 0 mirror-10 ONLINE 0 0 0 sdu ONLINE 0 0 0 sdv ONLINE 0 0 0 mirror-11 ONLINE 0 0 0 sdw ONLINE 0 0 0 sdx ONLINE 0 0 0 mirror-12 ONLINE 0 0 0 sdy ONLINE 0 0 0 sdz ONLINE 0 0 0 mirror-15 ONLINE 0 0 0 sdaa ONLINE 0 0 0 sdab ONLINE 0 0 0 mirror-16 ONLINE 0 0 0 sdac ONLINE 0 0 0 sdad ONLINE 0 0 0 cache sdae ONLINE 0 0 0 sdaf ONLINE 0 0 0

Die Tank Mirror Disks sind 18TB Spindeln. Cache Disk SSDs und Boot Pool NVMEs

1702882957308.png

Eventuell noch ne Info. Die Storage ist verschlüsselt und die Daten gehen auch verschlüsselt auf Band.
 
Last edited:
Bei der Datastoregrösse wirds wohl nix mit HDDs und schnellem Schreiben auf LTO9. Zugriffszeiten sind hier einfach zu schlecht für die vielen kleinen Dateien/Chunks.

D.h. um die maximal möglichen 350 bis 400 MB/s vom LTO9 auszulasten würde ich einen Datastore vielen 30 TB großen U2/U3 SSDs vorschlagen. Je nach Modell kosten diese SSDs so um die 80 bis 100 EURO pro TB - die sind schnell und halten wohl auch bedeutend länger wie HDDs.
 
30 HDDs im Raid 10 und keine 400MB/s? Das wäre failed by design...
Wie sieht denn der Backup-Speed aus? Ich meine wenn die HDDs keine 50MB/s lesend schaffen, sollten sie ja auch nicht schneller schreiben können (vorausgesetzt ZFS-Sync ist nicht disabled).
 
30 HDDs im Raid 10 und keine 400MB/s? Das wäre failed by design...

Proxmox Backup Server wurde für SSD storage entwickelt und nicht für HDDs.
 
Was ich beim TO aber gerade noch sehe:
1702882085947.png
Wird nicht beim Verfiy alle Chunks gelesen und auf Fehler geprüft?
Da passt ja der Speed vom 400 MB/s.
 
Wird nicht beim Verfiy alle Chunks gelesen und auf Fehler geprüft?
Der Screenshot zeigt ja nicht die Verify speed aller Chunks, sondern ist der Output eines einfachen Benchmarks.
 
Die Große Frage ist auch, was für HDDs sind das denn?
Ich habe bei einem Kunden, alte 10k Disks im ZFS Pool, das rennt auch ganz gut. Bei den großen HDDs kann man den PBS Performancetechnisch vergessen. Neu gibt nur noch Read Intensive SSDs.
 
Der Kunde hat kein Tape mehr, aber beim Copy der Backups können wir die 10G Leitung sättigen.
Wenn wir mehrere Restores gleichzeitig testen, schaffen wir auch 18GBit Durchsatz auf dem 2x10G LACP. Dann glühen die Disks aber auch. Bei nmon zeigt der dann über 90% Busy.
Eventuell beim Tape schreiben auf dem PBS mal in der Console nmon starten (mein Liebligstool zum Leistung anschauen) und da auf die Disks gucken.
Sind die SSDs Cache oder Special Device? Ich habe auch schon gesehen, das beim lesen die günstigen SSDs als Special Device, Bremsklotz gespielt haben.
 
Der Kunde hat kein Tape mehr, aber beim Copy der Backups können wir die 10G Leitung sättigen.
Wenn wir mehrere Restores gleichzeitig testen, schaffen wir auch 18GBit Durchsatz auf dem 2x10G LACP. Dann glühen die Disks aber auch. Bei nmon zeigt der dann über 90% Busy.
Eventuell beim Tape schreiben auf dem PBS mal in der Console nmon starten (mein Liebligstool zum Leistung anschauen) und da auf die Disks gucken.
Sind die SSDs Cache oder Special Device? Ich habe auch schon gesehen, das beim lesen die günstigen SSDs als Special Device, Bremsklotz gespielt haben.
Nur Cache

nmon zeigt mir diese Werte. Read nie über 3. Write hat die 30 auch noch nicht gesehen.

1702973202433.png
 
Ich hätte etwas mehr erwartet. Im PBS nutze ich SSDs immer als Special Device, da dann die Metadaten auf den SSDs liegen und der Zugriff beim lesen auch deutlich beschleunigt wird.
Eventuell liest du dich zu dem Thema mal etwas schlauer.
https://pve.proxmox.com/wiki/ZFS_on_Linux
 
Wie groß sollten die SSDs für das Special Device denn sein ?
Als generelle pi-mal-daumen Regel kann man davon ausgehen, dass Metadaten rund 0,3 % des Storage, da ein PBS Datastore schon etwas mehr Files hat, währen wohl 0,5 % eine sichere Obergrenze.

Dann kommts noch darauf an, wie hoch man special_small_blocks setzt, für PBS macht das aber wenig Sinn, da die meisten Files zwischen 64 KB und (vor allem) 4 MB haben.

Also in deinem Fall währen das wohl so 2 x 2TB oder 2 x 3.84 TB Enterprise SSDs für den special device mirror gut.

Wenn das die Daten beim Sichern aufs LTO sind, liegt's mit Sicherheit nicht an den HDDs.
Naja, bei hohen latenzen (also niedrigen IOPS) kann so ein Graph genau das Problem gut zeigen.
Denn die rohe Bandbreite wird bei dem Setup nie das Problem sein, aber die IOPS. Denn beim content addressable storage design des PBS sind ja viele Files da, daher brauch es dann einiges an disk seeks und die lassen die Performance einbrechen.

Wobei mir die 40 MB/s hier trotzdem eher als zu wenig vorkommen.
 
So sieht ein Verify mit 6 alten SAS Platten im BTRFS-Raid0 aus. Also ich denke, die neuen Platten sollten da aber mindestens genau so gut arbeiten, oder? Sonst wäre doch auch der "Busy-Wert" der HDDs höher, wie auf meinem Bild zu sehen ist.
 

Attachments

  • Verify.png
    Verify.png
    16.3 KB · Views: 29
Beim Verify müssen alle Blöcke gelesen werden, was deutlich mehr Durchsatz macht, als wenn man Random Blöcke zusammensuchen muss um die auf ein Tape zu schreiben.
Ich habe leider noch kein gutes Tool gefunden, was gleichzeitig die Latenzen der Disks anzeigt.
Bei einem Kunden haben wir einen großen Ceph Cluster für Backups, wo ich dann in der GUI bei den OSDs gut ablesen kann wenn die Latenzen der Disks hochgehen. Das hilft sehr gut zum Sizing zusätzlicher Kapazität.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!