Performanceproblem SSD

Das gibt es unter HyperV nicht, unter VMWare nicht und auch nicht unter Proxmox. Solch ein verhalten hat eine Ursache. Wir haben hier im Tagesbetrieb Spitzen bei 22% IO-Delay auf einem ZFS RAID-10 mit Spindeln. Da Ruckelt nichts. Dann würden unsere Kunden uns auch mit entsprechendem "Feedback" steinigen. Ich vermute irgendeine "Komponente" meldet nicht zurück oder geht kurz in einen Deadlock. Das können die ConsumerSSDs sein, oder der onboard SATA-Controller. Das kann dann ein "Treiber-Verhalten" sein..... für Proxmox an sich ist das jedenfalls kein "nicht ungewöhnlich" sondern einfach falsch.

Das System sagt dir das 22% der "Denkzeit" mit warten auf IO zugebracht hat. Das ist nicht geil, aber auch nicht per se schlimm....
Das stimmt so mal gar nicht. Ich kenne genügend HyperV / vSphere Installationen die absolut unbenutzbar waren, trotz angeblich niedriger Auslastung. Leider sind die Ursachen für das unbenutzbar erscheinen immer unterschiedlich.
Mal ist es die überbuchte CPU, mal drops im Netzwerk. 20% ist für mich gefühlt schon zu viel, außerdem hat jeder ein anderes Empfinden von unbenutzbar.

Die 20% I/O Delay können eventuell auch nur die Folge des Problems sein. Du hast bei deinem Screenshot auch den CPU I/O Wait genommen. Diese Peaks sind besser verkraftbar, als wenn ein Disksystem für eine gewisse Zeit dauerhaft auf 20% hängt. Dann wird es für den User gefühlt unangenehm.
 
Das stimmt so mal gar nicht. Ich kenne genügend HyperV / vSphere Installationen die absolut unbenutzbar waren, trotz angeblich niedriger Auslastung. Leider sind die Ursachen für das unbenutzbar erscheinen immer unterschiedlich.
Mal ist es die überbuchte CPU, mal drops im Netzwerk. 20% ist für mich gefühlt schon zu viel, außerdem hat jeder ein anderes Empfinden von unbenutzbar.

Die 20% I/O Delay können eventuell auch nur die Folge des Problems sein. Du hast bei deinem Screenshot auch den CPU I/O Wait genommen. Diese Peaks sind besser verkraftbar, als wenn ein Disksystem für eine gewisse Zeit dauerhaft auf 20% hängt. Dann wird es für den User gefühlt unangenehm.
Tja, genau das habe ich geschrieben....
Code:
Solch ein verhalten hat eine Ursache
sowie das dieses Verhalten eben nicht normal ist....
 
Der Server verfügt über:
01:00.0 RAID bus controller [0104]: Broadcom / LSI MegaRAID SAS-3 3108 [Invader] [1000:005d] (rev 02)

Daran hängen per backplane als Einzelplatten:
Samsung 860 EVO 2TB als Backupplatte
Samsung 860 PRO 1TB als Systemplatte

Nun bin ich z.Zt. auf dem Trichter, daß die o.g. SSDs tatsächlich die Spaßbremsen sind. So zeigt mir hdparm zwar 350MB/sec Lesegeschwindigkeit an, bei einem vzdump komme ich aber nur auf ca. 130MB/sec (auch auf die Backupplatte). Lese und Schreibgeschwindigkeit werden von Samsung jedoch mit ca. 500MB/sec angegeben.

Andererseits läuft der Server grundsätzlich zufriedenstellend. Wäre das System prinzipiell zu langsam, hätte ich die verwendeten SSDs sofort in Verdacht. Aber die regelmäßigen/unregelmäßigen Einbrüche lassen mich doch wieder daran zweifeln.

Macht es Sinn die SSDs gegen z.B. Samsung SM883 SSDs zu tauschen (vllt. sogar als RAID-0) oder schießt mir eher der RAID-controller ins Knie?

In den Logs finde ich Meldungen des smartd, die Temperatur sei von x auf y gestiegen oder gefallen (im Bereich 63-85Grad). Wird da evtl. "gethrottled"?
 
Last edited:
IO delay ist immer in Relation zur CPU-Auslastung.
Der Server verfügt über:
01:00.0 RAID bus controller [0104]: Broadcom / LSI MegaRAID SAS-3 3108 [Invader] [1000:005d] (rev 02)

Daran hängen per backplane als Einzelplatten:
Samsung 860 EVO 2TB als Backupplatte
Samsung 860 PRO 1TB als Systemplatte

Nun bin ich z.Zt. auf dem Trichter, daß die o.g. SSDs tatsächlich die Spaßbremsen sind. So zeigt mir hdparm zwar 350MB/sec Lesegeschwindigkeit an, bei einem vzdump komme ich aber nur auf ca. 130MB/sec (auch auf die Backupplatte). Lese und Schreibgeschwindigkeit werden von Samsung jedoch mit ca. 500MB/sec angegeben.

Andererseits läuft der Server grundsätzlich zufriedenstellend. Wäre das System prinzipiell zu langsam, hätte ich die verwendeten SSDs sofort in Verdacht. Aber die regelmäßigen/unregelmäßigen Einbrüche lassen mich doch wieder daran zweifeln.

Macht es Sinn die SSDs gegen z.B. Samsung SM883 SSDs zu tauschen (vllt. sogar als RAID-0) oder schießt mir eher der RAID-controller ins Knie?

In den Logs finde ich Meldungen des smartd, die Temperatur sei von x auf y gestiegen oder gefallen (im Bereich 63-85Grad). Wird da evtl. "gethrottled"?
Ja, meine Evo NVMes throttlen glaube ich ab 85 Grad Celsius. Das was in den Logs steht ist aber nicht die Temperatur in Celsius sondern der SMART-Wert. Eine 85 heißt da nicht 85 Grad. Die echte Temperatur ist dann viel niedriger.

Vzdump ist bei mir aber auch mit Enteprise SSDs im ZFS Raid5, Raid10, Raid1 lahm. Das liegt glaube ich einfach an Vzdump selbst bzw dessen Workload wie es die virtuellen Disks einließt und dann komprimiert. Weiß aber auch nicht warum Vzdump so lahm ist. Würde tippen da ist dann die CPU oder die IOPS der Flaschenhals.
 
IO delay ist immer in Relation zur CPU-Auslastung.

Ja, meine Evo NVMes throttlen glaube ich ab 85 Grad Celsius. Das was in den Logs steht ist aber nicht die Temperatur in Celsius sondern der SMART-Wert. Eine 85 heißt da nicht 85 Grad. Die echte Temperatur ist dann viel niedriger.
Nur wie findet man raus, daß eine SSD throttled? Smartd-Meldungen? Handauflegen? Systemd-Meldungen? Sind die SMART-Meldungen also eher Kategorie "was sie sonst noch wissen müssen"?
Vzdump ist bei mir aber auch mit Enteprise SSDs im ZFS Raid5, Raid10, Raid1 lahm. Das liegt glaube ich einfach an Vzdump selbst bzw dessen Workload wie es die virtuellen Disks einließt und dann komprimiert. Weiß aber auch nicht warum Vzdump so lahm ist. Würde tippen da ist dann die CPU oder die IOPS der Flaschenhals.
vzdump ist ja auch eher lahmarschig. ZFS taugt allerdings auch eher für Treckerrennen. Hier ist allerdings ein stinknormales ext4 (mit LVM) im Einsatz.
 
Ich habe ein XFS an einem RasPi4 per USB3 mit normaler HDD als vzdump Store. Backup läuft trotzdem vernünftig.
Die SATA SSDs erreichen die 500MB nur bei optimalen Workload. Wenn du einen SAS Controller hast, versuche es lieber mit gebrauchten SAS SSDs, die laufen deutlich besser. Wenn du mixed use nimmst (3DWPD) hast du auch deutlich bessere Schreibleistung.
 
Nur wie findet man raus, daß eine SSD throttled? Smartd-Meldungen? Handauflegen? Systemd-Meldungen? Sind die SMART-Meldungen also eher Kategorie "was sie sonst noch wissen müssen"?
Ins Datenblatt gucken ab wann die SSD zu throttlen anfangen soll und dann über den smartctl Befehl die Temeratur anzeigen lassen. Manche SSDs haben auch ein eigenes SMART Attribut zum anzeigen ob gerade gedrosselt wird oder nicht.
 
Wenns Probleme mit Platten gibt sieht man das im Regelfall zuerst in dmesg. Wenn dort was steht liegts zu IMHO 90% an defekten Kabeln.

Gibts die Möglichkeit die Kabel versuchsweise zu tauschen bzw. die SSD mal an einen anderen Rechner anzuschliessen?

Wenn ich nicht mehr weiter wüßte würde ich die zuerst mal komplett TRIMmen und dann leer nochmal neu testen.

Und bei dem MegaRAID bin ich mir nicht sicher ob der überhaupt TRIM kann, das geht erst ab einer bestimmten Version. Mal ausprobieren. Wenn nein und du hast viele Schreib-Lösch-Zyklen wäre das auch evt. eine Erklärung. Dann wearlevelt die sich womöglich intern gerade doof.
 
Noch ein Ding am Rande:
In der Mail, die man nach einem vzdump erhält, wird unter size die Größe der geschriebenen Datenmenge angezeigt. In meinen Augen sollte es besser die Ausgangsgröße der zu sicherenden VM sein; so wie vzdump es auch ausgibt.
 
Last edited: