Proxmox vGPU - jemand Erfahrung?

michaelortnerit

New Member
Aug 12, 2024
10
1
3
Austria
michaelortner.at
Hallo zusammen,

wir testen seit zirka 5 Monaten in einer Test Umgebung mit einem HP Gen10 Server und folgender Hardware die Thematik vGPU:

2x Intel Xeon Silver 4110
128GB RAM
NVIDIA Tesla P40 24GB -> auch mit einer Nvidia RTX Ada A5000 getestet

Leider haben die Tests nicht gute Ergebnisse geliefert aus diesem Grund möchte ich gerne die Community Fragen, welche Hardware im Einsatz ist und was man hier alles für Empfehlungen geben kann.

Folgendes Szenario:
Wir haben aktuell 5x Workstation PCs, welche in Zukunft virtualisiert gehören. Auf diesen PCs läuft eine CAD Software - verbunden wird sich dort mit RDP (hier wird schon das erste Bottlneck sein). - Wir haben uns hier Testweise 2 Windows Maschinen jeweils mit Windows 10 und Windows 11 aufgesetzt und dort die CAD Software installiert. Die Kollegen haben dann getestet und naja, was soll man sagen. Manchmal braucht die Software ewig lange zum laden/rendern. Beim verschieben einer Zeichnung tauchen "Laggs" auf. Im Allgemeinen gar nicht gut optimiert, diese Sachen erscheinen auf einer Workstation gar nicht.

Für mich stellt sich nun die Fragen:

Liegt es an der Hardware oder ist einfach Proxmox nicht performant mit vGPU Support? Wenn es an der Hardware liegt, was würdet Ihr empfehlen, bzw was habt Ihr im Einsatz?
RDP ist natürlich auch nicht die beste Lösung für solche Zwecke, gibt es hier einen anderen Client, den Ihr empfehlen würdet zum verbinden auf die Maschinen ala VDI Client?

Falls jemand Ideen hat dazu und seine Erfahrungen mitteilen könnte, wäre das sehr Hilfreich - nicht nur für uns sondern auch für die gesamte Community.

Liebe Grüße
 
Hi,

ein paar Gedanken von mir dazu (andere können/sollen aber ruhig noch ihre Erfahrungen/Meinungen teilen ;) ).
1. Wie genau sieht denn die Hardware der aktuellen Workstations aus? Je nachdem womit man vergleicht kann die Hardware langsam oder schnell sein.
2. Remote arbeiten über RDP kann schon gut gehen (hier zB teste ich mit einer RTXA5000 aber ich sitze quasi auf dem PVE host drauf, dh Netzwerk ist zu vernachlässigen), aber das Netzwerk muss schon ein bisschen was hergeben.
Vielleicht muss man auch ein bisschen konfigurieren dass RDP die H264/5 hardware Beschleunigung verwendet.
3. Kann man das Problem irgendwie messen (zB startup time von Applikationen) ? "laggs' und "langsam" lässt sich halt sehr schwer debuggen ohne konkrete Punkte was langsam sein könnte.
4. Storage hast du gar nicht erwähnt. Sind die Workstations mit SSDs ausgestattet? Wie siehts am Server aus?
5. Andere Remote Lösungen gibts natürlich, zb Parsec, oder noch kommerzieller HP Anywhere. Kann zwar nicht wirklich was zu beiden sagen (auch nicht zum Pricing), scheinen aber im Enterprise Umfeld verwendet zu werden.
6. Schon geschaut ob die GPU tatsächlich verwendet wird? zB im Task Manager kann man recht gut die GPU Auslastung sehen (in den VMs)

Hoffe das hilft mal :)
 
Hallo @dcsapak ,

danke für deine Antwort. Ich beantworte natürlich gerne gleich mal alles:

Die Hardware auf den Workstations ist folgende:
i7-12700k
32GB RAM
NVMe Kioxia 512GB
1Gbit Uplink
Nvidia RTX A4000 -> wurde auch im übrigen mit dieser getestet, weil es mir gerade einfällt auf dem Proxmox Host.

Bzgl. Netzwerk wir haben es mit 1Gbit und 10Gbit probiert, hatten hierzu noch eine Netzwerkkarte rumliegen. Leider auch trotz des Upgrades nicht die gewünschte Leistung geliefert.

Zum messen, kann ich nochmal mir im Detail ansehen. Es kann natürlich hier an die Festplatten liegen, man muss hierzu sagen es sind Consumer SSDs von Samsung. Um genauer zu sein Samsung 870 QVC 1TB im ZFS.

Zum Punkt 5. Danke, Parsec hatten wir bereits im Blick - werden wir uns nochmal im Detail ansehen.

Punkt 6. Die GPU ist eingebunden, zeigt auch eine Auslastung an.

Mir kommt es halt ziemlich langsam vor. Auch die Kollegen aus der CAD Abteilung haben dies so wiederspiegelt, da diese ganz normal daran gearbeitet haben. Ich dachte eventuell liegt es an der Kommunikation zwischen CPU und GPU - habe hierzu auch oft gelesen, dass eine langsame CPU und eine schnelle Grafikkarte nicht das Gelbe vom Ei ist, aber überzeugt mich gerne vom anderen.

Natürlich können auch die SSDs das Problem sein. Ich werde hierzu mal nochmal einen Test fahren ohne ZFS - dies haben wir noch nicht probiert.

Ich hoffe das hier villt. einige noch Ihre Hardware teilen können - damit wir einige Tipps haben wie wir hier weiter vorgehen. Danke nochmal vorab für dein Feedback.
 
i7-12700k
hat natürlich eine viel bessere single core performance als euer Server (5GHz vs 3GHz; noch gar nicht eingerechnet dass da ein paar CPU Generationen dazwischen liegen (alte Skylake server CPU von 2017 vs viel neuere Alder Lake CPU von 2021)

Um genauer zu sein Samsung 870 QVC 1TB im ZFS.
ich nehme an du meinst QVO ?damit werdet ihr auf jeden fall nicht glücklich werden, die sind im schlimmsten fall langsamer als HDDs, vor allem in kombination mit zfs da das doch mehr Ressourcen braucht (weil mehr features)
Generell ist unser Tipp/Empfehlung für Server nur Enterprise SSDs mit power loss protection
 
Kleines Update noch, damit ich es erwähnt habe. Die Grafikkarte steckt auf der Risercard drauf:

Der Stromanschluss für die Grafikkarte geht von dem schwarzen Anschluss links unten weg auf die Grafikkarte - eventuell hier das Problem?

1723459920059.png
 
ich nehme an du meinst QVO ?damit werdet ihr auf jeden fall nicht glücklich werden, die sind im schlimmsten fall langsamer als HDDs, vor allem in kombination mit zfs da das doch mehr Ressourcen braucht (weil mehr features)
Generell ist unser Tipp/Empfehlung für Server nur Enterprise SSDs mit power loss protection

Jap genau QVO, mein Fehler :D - Alles klar, wir werden zu Testzwecke mal Enterprise SSDs kaufen und testen - ich dachte mir schon fast, dass es an den SSDs liegen könnte und wenn das auch so eure Erfahrungen sind, werden wir dies gerne testen.
 
Kleines Update noch, damit ich es erwähnt habe. Die Grafikkarte steckt auf der Risercard drauf:

Der Stromanschluss für die Grafikkarte geht von dem schwarzen Anschluss links unten weg auf die Grafikkarte - eventuell hier das Problem?
das sollte schon so passen, aber da muss man beim server vendor nachschauen/fragen

Alles klar, wir werden zu Testzwecke mal Enterprise SSDs kaufen und testen - ich dachte mir schon fast, dass es an den SSDs liegen könnte und wenn das auch so eure Erfahrungen sind, werden wir dies gerne testen.
passt, kurze Rückmeldung dann ob das die situation gelöst oder verbessert hat wäre natürlich super ;)
 
Kleines Update noch, damit ich es erwähnt habe. Die Grafikkarte steckt auf der Risercard drauf:

Der Stromanschluss für die Grafikkarte geht von dem schwarzen Anschluss links unten weg auf die Grafikkarte - eventuell hier das Problem?
Das mit dem Stomanschluss ist schon richtig so, solange die Karte nicht den Maximalstrom überschreitet, den HPE hier angibt. Das sollte in den Datenblättern (QuickSpecs) drin stehen.

Die QVO mit ZFS sind das schlimmste was du tun konntest, außerdem bei der kleinen Silver CPU aufpassen, dass ihr die CPU nicht zu sehr überprovisioniert (zum Testen eventuell 1:1 Cores zu vCores). Die VM sollte auch den CPU Typ host haben, sonst wird die CAD Software auch nicht glücklich.
 
Hallo @Falk R. vielen Dank für die Information. Habe ich bereits so weitergegeben, dass dies eine schlechte Idee war :D - Jetzt wäre natürlich die Frage, was Ihr da empfehlen würdet für Enterprise SSDs in unserem Ceph Cluster nutzen wir aktuell Micron 7450 - eventuell gibt es hier andere Erfahrungen im Zusammenhang mit Proxmox vGPU :) Gerne um dein Feedback
 
Hi, ob jetzt Micron, Kioxia oder Samsung ist vollkommen egal, hauptsache Enterprise und wenn möglich das schnelleste Protokoll was der Server unterstützt NVMe vor SAS vor SATA.
Das ist etwas gerelles bei Virtualisierung. Bei CAD unterschätzen viele die CPU, da hilft oft auch Single Core Performance, was natürlich immer von der eingesetzten Software abhängt. Meine Kunden haben da bessere Erfahrungen mit Epyc als mit Xeon, denn die gibts höher getaktet und die von denen eingesetzten Softwareprodukte laufen damit besser.
Sonst wie geschieben, die CPU Überbuchung im Blick behalten und wenn möglich den CPU Typ auf host setzen.
Mir wurde zugetragen, dass die Version des Treibers auch deutliche Unterschiede machen soll, aber da bin ich raus.
 
Hallo, danke. Wir haben mal testweise und wegen den Kosten uns mal eine PM883 gekauft zum testen - bevor wir hier unmengen an SSDs kaufen testen wir es im Zusammenhang ohne ZFS mal mit dieser SSD. Eventuell ergibt sich hier was. Ich werde vmtl. nächste Woche davon berichten. Danke vorerst für deine bzw eure Hilfe.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!