[SOLVED] Performance Optimierung / nicht die erwartete Leistung.

CH.illig · Dec 19, 2022

Ich betreibe 2 Cluster,
1X tolles neues wo alles erwartungsgemäss funktioniert, aber einmal ein günstigeres Setup was in der VM aber eine meiner Meinung nach viel zu schlechte Performance abliefert.

Einmal die eingesetzte Hardware und Config:

Server 1
1x Supermicro Mainboard X11DPi-NT
2x Intel Xeon Silver 4210 (2,20GHz, 10-Core, 13.25MB)
8x 64 GB (1x 65536MB) ECC Registered (RDIMM) DDR4 2933 RAM 2 Rank (ATP Server-Grade)
2x 240 GB Samsung PM893 2,5" SATA SSD (OS disk)
1 x Samsung 870 QVO 8000 GB, 2.5" (Ceph )
1x 1 Gigabit Supermicro I350-T2 RJ45 Dual Port Netzwerkkarte (VM/WAN)
1x 10 Gbit Onboard NIC (Ceph)

Server 2+3
1x Supermicro Mainboard X11DPL-i
2x Intel Xeon Silver 4210 (2,20GHz, 10-Core, 13.25MB)
4x 64 GB (1x 32768 MB) ECC Registered (RDIMM) DDR4 2933 RAM 2 Rank (Samsung non-Premium)
2x 960 GB Intel D3-S4510 2,5" SATA SSD (OS Disk)
1x Samsung 870 QVO 8000 GB, 2.5" (Ceph )
1x Intel 10 Gigabit X550-T2 RJ45 Dual Port Netzwerkkarte
1x 1 Gbit onboard nic für VM/WAN)

1x Cisco SG300 Switch 1 Gbit als VM/WAN Switch mit kundennetzen etc.
1x QNAP QSW-1208-8C 1Port 10 GBE Switch als Storage Switch

2x Synology HA NAS als bisheriger Storage.

Server 1-3
1x Supermicro Mainboard H12SSL-NT
1x AMD EPYC 7343 (3,20 GHz, 16-Core, 128 MB)
8x 64 GB (1x 65536 MB) ECC Registered (RDIMM) DDR4 3200 RAM 2 Rank (ATP Premium)
3x 7,68 TB Samsung PM893 2,5" SATA SSD
2x 480 GB ATP N600Sc Superior M.2 NVMe SSD
1x 25 Gigabit Broadcom P425G SFP28 Quad Port Netzwerkkarte
4x Flexoptix Transceiver 10GbE (SR, 550m, SFP+)

Wir hatten das Synology NAS in Verdacht zur schlechten Performance / Hohe IO Wartezeiten.
Wir haben aber eine nicht viel bessere Performance auf dem einfach gestarteten Ceph Cluster und gehen daher von einem Fehler aus, den wir noch nicht gesehen haben.

Generell schwanken die Messerte stark auf einem Ceph Pool, der sonnst noch nichts macht
(zum zeitpunkt der Messungen, mitlerweile schon)

Aktueller Ausbau mit 1x 8TB SSD / Node sollte auf 2 SSD's/Node angehoben werden in den nächsten Wochen sobald die SSD's aus dem NAS frei werden.
Das Cluster ist mit einem schmalen Budget gewachsen. Aktuell steht ein erster Schritt an Ausbau an.
-> geplant sind noch austausch Switch,
-> künftige Server etc mit SFP+ anstelle RJ45
-> Enterprise SSD's / NVMe

Aber aktuell ist erst ein erwartungsgemässer Betrieb geplant. und mit weiterem Ausbau dann die Migration von low-cost Optionen zu Enterprise.

Probleme oder Messwerte die uns komisch vorkamen/sind:

ein Move von Ceph auf lokale SSD erreicht ca 250MiB/s

ein Move von altem NAS (NFS) auf Ceph erreicht ca 50 Mbit

Beides Live migrationen online, hier gehen wir aber mal vom alten NAS aus welches hier die schlechte performance liefert.
Dennoch reicht dieser Kopierprozess das eine VM die bereits auf dem Ceph liegt bereits merklich langsamer wird.

Back 2 Basic ... Ceph Performance Report:

root@svdrz247:~# rados bench -p scbench 10 write --no-cleanup
hints = 1
Maintaining 16 concurrent writes of 4194304 bytes to objects of size 4194304 for up to 10 seconds or 0 objects
Object prefix: benchmark_data_svdrz247_3611318
sec Cur ops started finished avg MB/s cur MB/s last lat(s) avg lat(s)
0 0 0 0 0 0 - 0
1 16 33 17 67.9959 68 0.336318 0.65526
2 16 65 49 97.9917 128 0.508199 0.553118
3 16 97 81 107.99 128 0.508953 0.53793
4 16 129 113 112.989 128 0.523179 0.53589
5 16 206 190 151.985 308 0.135851 0.413112
6 16 305 289 192.647 396 0.152425 0.323248
7 16 416 400 228.548 444 0.139805 0.27895
8 16 449 433 216.478 132 0.502553 0.292363
9 16 481 465 206.645 128 0.524757 0.306788
10 16 497 481 192.38 64 0.576347 0.315632
Total time run: 10.0234
Total writes made: 497
Write size: 4194304
Object size: 4194304
Bandwidth (MB/sec): 198.337
Stddev Bandwidth: 137.565
Max bandwidth (MB/sec): 444
Min bandwidth (MB/sec): 64
Average IOPS: 49
Stddev IOPS: 34.3914
Max IOPS: 111
Min IOPS: 16
Average Latency(s): 0.322647
Stddev Latency(s): 0.18728
Max latency(s): 0.68506
Min latency(s): 0.0309812

root@srv220:~# rados bench -p scbench 10 write --no-cleanup
hints = 1
Maintaining 16 concurrent writes of 4194304 bytes to objects of size 4194304 for up to 10 seconds or 0 objects
Object prefix: benchmark_data_srv220_2188239
sec Cur ops started finished avg MB/s cur MB/s last lat(s) avg lat(s)
0 0 0 0 0 0 - 0
1 16 199 183 731.954 732 0.0656796 0.0814933
2 16 316 300 599.952 468 0.590427 0.0977137
3 16 469 453 603.95 612 0.0470695 0.099092
4 16 631 615 614.949 648 0.0574583 0.101327
5 16 813 797 637.545 728 0.0613846 0.0984605
6 16 980 964 642.61 668 0.270459 0.0965525
7 16 1124 1108 633.087 576 0.0214834 0.0975533
8 16 1266 1250 624.944 568 0.0405118 0.100834
9 16 1422 1406 624.832 624 0.054028 0.101813
10 16 1598 1582 632.743 704 0.0425777 0.0998504
11 3 1598 1595 579.942 52 0.328297 0.100008
Total time run: 11.9324
Total writes made: 1598
Write size: 4194304
Object size: 4194304
Bandwidth (MB/sec): 535.686
Stddev Bandwidth: 191.625
Max bandwidth (MB/sec): 732
Min bandwidth (MB/sec): 52
Average IOPS: 133
Stddev IOPS: 47.9062
Max IOPS: 183
Min IOPS: 13
Average Latency(s): 0.104081
Stddev Latency(s): 0.161305
Max latency(s): 2.41895
Min latency(s): 0.0146019

Ich würde also sagen das die Leistung im zu erwartenden Ramen liegt,

Sachen die mir aufgefallen sind:

Hohe apply/commit latenz

Hauptsächliches Problem ist aber die Performance in einer VM:

mit Writeback (unsafe) dann aber

ich wäre für einen Gedankengang offen was man anschauen könnte, / verändern könnte...
Advanced Schulung ist leider erst im März, aber aktuell nutze ich Proxmox seit version PVE 2.0

Danke bereits.

aaron · Dec 19, 2022

CH.illig said:
Samsung 870 QVO

ui... die werden dein Problem sein!

Ich hab selber ein paar davon in der 4TB Variante als Datengrab. Dafür sind sie gerade so okay, aber für etwas, das dauernd Last verursacht sind sie einfach schlecht.

Wie sie ganz neu und leer waren, ist die Datenrate bei Bandwidth-Benchmarks nach circa 2 minuten von ~450MiB/s auf 100 bis 150 MiB/s eingebrochen, teilweise sogar auf nur ~50MiB/s...
Ich hab dann 1 Jahr später eine aus meinem ZFS Pool rausgenommen und nochmal gebenchmarkt und die Ergebnisse sind noch viel schneller eingebrochen.

CH.illig said:
7,68 TB Samsung PM893

Die SSDs im Referenzsystem sind tolle Datacenter SSDs mit echter Powerloss Protection. Das bedeutet, sie könne Schreiboperationen abnicken, sobald die Daten im internen RAM sind, da selbst bei einem Stromausfall die Kondensatoren noch lange genug Strom liefern, dass die Daten in die non-volatile Speicherzellen geschrieben werden können.

CH.illig · Dec 19, 2022

ich bestelle mal 6 neue P893 ...

Wehe es ist nicht schneller

-> Bericht folgend

aaron · Dec 19, 2022

CH.illig said:
Wehe es ist nicht schneller

Ich nehme sie gerne gebraucht

Die QVOs sind leider eben wirklich nicht gut für Dauerlast, denn sobald deren interner Cache voll ist, bricht die Performance mitunter massiv ein.

Ich hab sie für 2 PBS Server im Einsatz. Sie waren damals deutlich günstiger als alles andere. Ich kann im Monitoring gut beobachten wie die Write Latency rauf geht und auch die Read Latency, durchaus in den 2 stelligen Millisekunden Bereich, wenn genug los ist. Für Ceph und VMs macht dir das halt wirklich die ganze Performance kaputt, wenn man da so lange warten muss.

Nochmal würde ich sie mir wohl nicht kaufen, aber in ein paar Jahren werden sie eh durch sein, wenn ich mir den wear level so anschaue

CH.illig · Dec 23, 2022

Als info (und ein bisschen eigendokumentation)

Wir haben nun 3 bzw je eine
und 6 bzw je 2 pro server von den 8TB P893 SSD's

root@svdrz247:~# rados bench -p scbench 10 write --no-cleanup
hints = 1
Maintaining 16 concurrent writes of 4194304 bytes to objects of size 4194304 for up to 10 seconds or 0 objects
Object prefix: benchmark_data_svdrz247_3325150
sec Cur ops started finished avg MB/s cur MB/s last lat(s) avg lat(s)
0 0 0 0 0 0 - 0
1 16 105 89 355.979 356 0.140739 0.156295
2 16 227 211 421.964 488 0.141117 0.147332
3 16 331 315 419.96 416 0.0797974 0.146213
4 16 443 427 426.957 448 0.147733 0.145124
5 16 566 550 439.955 492 0.124414 0.144005
6 16 683 667 444.62 468 0.144743 0.143626
7 16 795 779 445.096 448 0.137185 0.143479
8 16 904 888 443.952 436 0.0886892 0.143926
9 16 1017 1001 444.84 452 0.149212 0.143739
10 16 1128 1112 444.75 444 0.0980624 0.143669
Total time run: 10.1126
Total writes made: 1128
Write size: 4194304
Object size: 4194304
Bandwidth (MB/sec): 446.176
Stddev Bandwidth: 38.7264
Max bandwidth (MB/sec): 492
Min bandwidth (MB/sec): 356
Average IOPS: 111
Stddev IOPS: 9.6816
Max IOPS: 123
Min IOPS: 89
Average Latency(s): 0.143366
Stddev Latency(s): 0.0254277
Max latency(s): 0.3557
Min latency(s): 0.042838

wir reden also von

Max bandwidth (MB/sec): 492
Min bandwidth (MB/sec): 356
Average IOPS: 111

anstelle

Max bandwidth (MB/sec): 444
Min bandwidth (MB/sec): 64
Average IOPS: 49

und in der VM (links P893/ rechts QVO870)

und mit dem vollen ausbau mit 28TB SSD's pro Server

Search

Search

[SOLVED] Performance Optimierung / nicht die erwartete Leistung.

CH.illig

Renowned Member

aaron

Proxmox Staff Member

CH.illig

Renowned Member

aaron

Proxmox Staff Member

CH.illig

Renowned Member