Performanceproblem SSD

TErxleben · Oct 16, 2021

Dunuin said:
Was hast du denn jetzt für ein SSD Modell verbaut?

Was man auch schnell übersehen kann ist, dass da die SATA-Ports vom Mainboard meist nicht die volle Leistung bringen. Jedenfalls wenn die SATA-Ports vom Mainboard-Chipsatz kommen und man dort mehr mehrere SSDs gleichzeitig nutzen möchte. Die SATA-Ports vom Chipsatz teilen sich ja die selbe (geringe) Bandbreite mit allen USB-Ports, Onboard-NICs, manchen PCIe und M.2 Slots. Da wird dann schnell der Link zwischen CPU und Chipsatz zum Flaschenhals.

Ich habe hier z.B. 2 HDDs + 8 SSDs am Mainboard und mehr als rund 4-6 SSDs kann das Mainboard eigentlich nicht mit voller Leistung betreiben.

Lieber Dunuin,
danke für Deine Antwort.
Verbaut sind Samsung 860er in einem Server, der kein Kindergeburtstag ist. Genaue Beischreibung findest du in vorher geposteten Einträgen-

Falk R. · Oct 16, 2021

Hi, ich habe derzeit auch nur ganz günstige SATA SSDs drin, aber bei mir teilen sich 8x 480GB SSDs in einem ceph Pool die Last. Zum rumspielen reicht das. Für Produktiv nutze ich bei meinen Kunden (egal welcher Hypervisor) nur Enterprise SAS SSDs oder wenn möglich NVMe.
Mit NVMe bekommst du auch zuhause ordentlich Leistung, auf jeden Fall immer mehr als SATA.

TErxleben · Oct 17, 2021

@SkyDiver79
verbaut sind Samsung 860PRO. also nicht die ganz günstigen. Der Server ist ein relativ fetter (2CPUs, 40Kerne, 128GB RAM, SATA3.2) Fujitsuofen.
Das NVMe schneller ist, ist schon klar. Warum die aktuelle HW-Lösung hier nur 25% der zu vermutenden Leistung liefert, ist hier die Frage. S.o.

Falk R. · Oct 17, 2021

Wenn das ein Server mit Dual Sockel ist, stellt mir sich die Frage wo du die SATA SSDs angeschlossen hast. Im Regelfall hat so eine Kiste einen SAS RAID Controller oder SAS HBA drin. Die SATA Anschlüsse bei den Servern sind eher dürftig angebunden, da dort meistens nur ein DVD LW oder mal ein SATA DOM zum booten dran kommt.

Gruß Falk

TErxleben · Oct 17, 2021

Wie bereits geschrieben, sind die Dinger wie folgt angebunden:

Was ich vergessen habe, ist das die SSDs als Einzelplatten (ext4) an einer SAS-Backplane betrieben werden.

LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (rev 02)

Komisch ist auch, dass die Übertragungsraten ziemlich exakt den Werten entsprechen, die ich übers Netzwerk (1GB) erreiche.

Falk R. · Oct 17, 2021

Ist vermutlich ein 9361 4 oder 8i.
3108 ist nur der RAID Chip. Hast du ein Batteriecache Modul dran?
So ein Controller mit Batteriecache macht aus Consumer SSDs im RAID 1 schon gut Dampf. Read kommt dann bis zu 1GB/s und Write ca. 450-500 MB/s. Der Cache hilft da eine Menge.

TErxleben · Oct 17, 2021

Das Ding hat tatsächlich eine Batterie für den Cache.
Also einfach in Proxmox den Cache-Modus auf scharf/bissig stellen?

Falk R. · Oct 17, 2021

Leider nicht.
Du musst dafür auf dem RAID Controller ein RAID1 erstellen und mit Batterie stellt der normalerweise den Cache direkt richtig ein. Problem, danach sind die Platten zu 90% leer. Also Backup und noch mal von vorn heißt die Devise.

Also ich bin seit vielen Jahren ein Verfechter von guten RAID Controllern. Es gibt einige Leute, die meckern, dass der Controller etwas Latenz erzeugt. Meine Praxiserfahrung: Latanzzuwachs ist im unteren Zehntel ms Bereich. Performancezuwachs I/O und Durchsatz meistens ein vielfaches, natürlich Workloadabhängig.
Wenn du die HW schon hast, dann nutze das Potential.

TErxleben · Oct 17, 2021

Klingt leider logisch was Du schreibst.
Ich war froh, "gute RAID-Controller" los zu sein. Z.B. ICP
Danke für deine Intentionen.
Ich werde berichten.

P.S.: Eine stumpfe Umstellung innerhalb von Proxmox werde ich trotzdem versuchen und testen.

Falk R. · Oct 17, 2021

Adaptec Controller mochte ich noch nie. Ich liebe Smart Array und MegaRaid. PERC geht meistens auch. Das schöne an den aktuellen Controllern, da kannst du Platten im RAID für das OS nutzen und den Rest im HBA Modus durchreichen für HCI.

TErxleben · Oct 17, 2021

Huch, IPC als "urdeutscher" Hersteller und dann von Adaptec gekauft wabert jetzt erst wieder aus meinem Kopf.

Falk R. · Oct 17, 2021

Hatte ich nie große Berührungspunkte. Ich mochte auch nie Siemens Server. Die hatten echt bescheuerte Macken.

TErxleben · Nov 3, 2021

@SkyDiver79: Sollte ein RAID0 statt RAID1 denn nicht noch erheblich mehr Druck auf der Leitung erzeugen?

Falk R. · Nov 3, 2021

Ja theoretisch schon. Ist aber trotzdem von der SSD, dem Workload und der Stripesize abhängig. Wenn du eine große Stripesize aber kleine I/Os hast, kommt bei Raid0 im Worst case die Performance einer SSD raus.

TErxleben · Nov 3, 2021

Bitte nochmal für die Doofen: Warum soll ein RAID1 performanter als eine (SSD)Einzelplatte sein?

Falk R. · Nov 3, 2021

Ein Raid1 ist auch nicht schneller, ich wollte nur sagen, dass ein Raid0 auch kein Allheilmittel ist.
Langsame Consumer SSDs bekommt man nur mit Cache schnell. Egal welches RAID Level du nutzen möchtest, mit Read Intensiv oder Consumer SSDs bekommst du nur Schreibperformance mit Batterie oder ähnlichen gepufferten Schreibcache. Leseperformance können die eigentlich alle. Ob Ceph oder ZFS bekommst du nur richtig schnell mit NVMe oder SCM Disks, wenigstens als Schreibcache.

TErxleben · Nov 23, 2021

Ich muss nochmal nachhaken,
wie kann es sein, das ein IO-Delay von ca. 10-20% (angezeigt im Webfrontend) den kompletten Server lahmlegt?
Über Intentionen wäre ich sehr dankbar!

Falk R. · Nov 26, 2021

TErxleben said:
Ich muss nochmal nachhaken,
wie kann es sein, das ein IO-Delay von ca. 10-20% (angezeigt im Webfrontend) den kompletten Server lahmlegt?
Über Intentionen wäre ich sehr dankbar!

Kann es sein, dass der IO Delay nicht die Ursache, sondern auch eine Folge ist?
Ich kenne Systeme, wo die CPU so überbucht war, dass CPU Latenzen entstanden sind, welche auch das Storage gebremst haben.
Vorsicht, nicht mit CPU Last verwechseln, die Server hatten meist nur 10-20% CPU Auslastung, aber die vCPU / pCPU Kern Ratio war viel zu hoch und so sind im CPU Scheduler lange Warteschlangen entstanden.

TErxleben · Nov 26, 2021

Danke SkyDiver,

der Ofen verfügt über 40 Kerne auf zwei Sockeln. Ich glaube nicht, daß hier der Karusselbremser wohnt. Wo/Wie kann ich mir denn die vCPU/pCPU anzeigen/protokollieren lassen?

Falk R. · Nov 26, 2021

Hi, ich habe keine Ahnung ob man das irgendwie schön abfragen kann, geht aber garantiert.

Mal zum Verständniss ein Praxisbeispiel:
2x 18Core CPU verbaut. = 36 Cores / 72 Threads. Der Kunde hatte ca 10 8vCPU VMs, ca 15x 4 Core und ein paar mit 1/2 Cores. (war ESXi drauf, aber der Hypervisor ist da vollkommen egal)
Die VMs hatten mega hohe CPU Latenzen, echte Werte schreibe ich mal nicht, verwirrt nur, da VMware anders Zählt als Windows oder Linux.
Überbuchung echte pCPU kerne zu vCPU 1:8,5.
Wir haben vor allen die dicken VMs um einige vCPUs reduziert, da waren die Latenzen schon spontan auf 1/3 gefallen. Nach dem Aufräumen aller VMs hatte wir eine Ratio von 1:3,7 und die CPU Latenzen waren nicht Perfekt, aber vollkommen normal und auf ca 1/5 von vorher gesunken.
Vor allem VMs mit viele vCPUs brtemsen und wenn ineter NUMA Zugriffe stattfinden müssen. Ich Persönlich mag daher die neuen EPYC, wenn ich da eine 64Core CPU habe und die VMs von vorher 5 Hosts mit 80 Kernen drauf packe, habe ich weniger als die halbe CPU Latenz. Einfach weil eine CPU mit vielen kernen deutlich besser skalieren kann.

Performanceproblem SSD

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

Renowned Member

Distinguished Member

We value your privacy