Guten Morgen,
folgende Ausgangssituation:
Wir haben ein kleines Cluster mit Ceph wo aktuell round 200 Vms drauf laufen ( die meisten Idle nur ) , das Ceph Cluster wurde damals mit 10Gps Netzwerkkarten und 1TB Consumer Platten aufgebaut. Uns ist aufgefallen das die Performance teilweise nicht so dolle ist.
Siehe Bench
rados -p Ceph bench 10 write --no-cleanup
hints = 1
Maintaining 16 concurrent writes of 4194304 bytes to objects of size 4194304 for up to 10 seconds or 0 objects
Object prefix: benchmark_data_prox20_1478479
sec Cur ops started finished avg MB/s cur MB/s last lat(s) avg lat(s)
0 0 0 0 0 0 - 0
1 16 20 4 15.9992 16 0.485937 0.289758
2 16 34 18 35.9971 56 0.102085 0.651349
3 16 38 22 29.3307 16 1.41636 0.813368
4 16 40 24 23.9977 8 0.110201 0.788304
5 16 40 24 19.198 0 - 0.788304
6 16 40 24 15.9983 0 - 0.788304
7 16 40 24 13.7128 0 - 0.788304
8 16 52 36 17.9981 12 0.105089 1.50522
9 16 63 47 20.8866 44 0.099648 1.96874
10 16 63 47 18.798 0 - 1.96874
11 16 63 47 17.0891 0 - 1.96874
12 14 64 50 16.6648 4 4.01885 2.04607
13 14 64 50 15.3829 0 - 2.04607
14 14 64 50 14.2841 0 - 2.04607
Total time run: 14.8198
Total writes made: 64
Write size: 4194304
Object size: 4194304
Bandwidth (MB/sec): 17.2742
Stddev Bandwidth: 17.6934
Max bandwidth (MB/sec): 56
Min bandwidth (MB/sec): 0
Average IOPS: 4
Stddev IOPS: 4.42334
Max IOPS: 14
Min IOPS: 0
Average Latency(s): 3.58266
Stddev Latency(s): 4.10878
Max latency(s): 14.8169
Min latency(s): 0.0464835
Ich vermute einmal das hier die Consumerplatten an ihre Grenzen kommen.
Die Idee die Consumerplatten alle auf einmal gegen Intel / Samsung Enterprise SSDs auszutauschen ist erst einmal am wirtschaftlichen Faktor gescheitert. Die Große Frage war nun was tun, um das Ganze performanter zu gestalten.
Meine Überlegung war, weg von Ceph zu einem normalen NFS Storage, da dieses Cluster keinerlei SLA hat, und daher kein Redundantes Storage benötigt. Ich hatte aber im Bio-Speicher noch die Information das wir mit dem Thema NFS vor ein paar Jahren Probleme mit der Performance hatten, da die Anzahl er IP Pakete von dem damaligen Freenas nicht mehr verarbeitet werden konnte, und der diese in die queue geschoben hatte. Was natürlich auch wieder Abbrüche hervorruft, oder gar ganze Timeouts.
Die Option der lokalen Platten per ZFS war raus, da unser Provisionierungstool einen Shared-Storage benötigt, um die vServer auch gleich zu verteilen.
alles erst einmal alles blöd ...
Jetzt kam mir noch die Idee , und das ist meine Frage an euch.. Wenn wir pro Node eine Enterprise SSD Platte verbauen, und diese als Cache verwenden, gibt es hier gute Erfahrungen ?, so hätten wir Zeit die Consumer Platten nach und nach mit Enterprse Platten zu ersezen.
folgende Ausgangssituation:
Wir haben ein kleines Cluster mit Ceph wo aktuell round 200 Vms drauf laufen ( die meisten Idle nur ) , das Ceph Cluster wurde damals mit 10Gps Netzwerkkarten und 1TB Consumer Platten aufgebaut. Uns ist aufgefallen das die Performance teilweise nicht so dolle ist.
Siehe Bench
rados -p Ceph bench 10 write --no-cleanup
hints = 1
Maintaining 16 concurrent writes of 4194304 bytes to objects of size 4194304 for up to 10 seconds or 0 objects
Object prefix: benchmark_data_prox20_1478479
sec Cur ops started finished avg MB/s cur MB/s last lat(s) avg lat(s)
0 0 0 0 0 0 - 0
1 16 20 4 15.9992 16 0.485937 0.289758
2 16 34 18 35.9971 56 0.102085 0.651349
3 16 38 22 29.3307 16 1.41636 0.813368
4 16 40 24 23.9977 8 0.110201 0.788304
5 16 40 24 19.198 0 - 0.788304
6 16 40 24 15.9983 0 - 0.788304
7 16 40 24 13.7128 0 - 0.788304
8 16 52 36 17.9981 12 0.105089 1.50522
9 16 63 47 20.8866 44 0.099648 1.96874
10 16 63 47 18.798 0 - 1.96874
11 16 63 47 17.0891 0 - 1.96874
12 14 64 50 16.6648 4 4.01885 2.04607
13 14 64 50 15.3829 0 - 2.04607
14 14 64 50 14.2841 0 - 2.04607
Total time run: 14.8198
Total writes made: 64
Write size: 4194304
Object size: 4194304
Bandwidth (MB/sec): 17.2742
Stddev Bandwidth: 17.6934
Max bandwidth (MB/sec): 56
Min bandwidth (MB/sec): 0
Average IOPS: 4
Stddev IOPS: 4.42334
Max IOPS: 14
Min IOPS: 0
Average Latency(s): 3.58266
Stddev Latency(s): 4.10878
Max latency(s): 14.8169
Min latency(s): 0.0464835
Ich vermute einmal das hier die Consumerplatten an ihre Grenzen kommen.
Die Idee die Consumerplatten alle auf einmal gegen Intel / Samsung Enterprise SSDs auszutauschen ist erst einmal am wirtschaftlichen Faktor gescheitert. Die Große Frage war nun was tun, um das Ganze performanter zu gestalten.
Meine Überlegung war, weg von Ceph zu einem normalen NFS Storage, da dieses Cluster keinerlei SLA hat, und daher kein Redundantes Storage benötigt. Ich hatte aber im Bio-Speicher noch die Information das wir mit dem Thema NFS vor ein paar Jahren Probleme mit der Performance hatten, da die Anzahl er IP Pakete von dem damaligen Freenas nicht mehr verarbeitet werden konnte, und der diese in die queue geschoben hatte. Was natürlich auch wieder Abbrüche hervorruft, oder gar ganze Timeouts.
Die Option der lokalen Platten per ZFS war raus, da unser Provisionierungstool einen Shared-Storage benötigt, um die vServer auch gleich zu verteilen.
alles erst einmal alles blöd ...
Jetzt kam mir noch die Idee , und das ist meine Frage an euch.. Wenn wir pro Node eine Enterprise SSD Platte verbauen, und diese als Cache verwenden, gibt es hier gute Erfahrungen ?, so hätten wir Zeit die Consumer Platten nach und nach mit Enterprse Platten zu ersezen.