[SOLVED] NVIDIA vGPU - No devices were found

Sep 5, 2022
32
5
13
Hallo zusammen,

wir haben aktuell folgendes Problem mit NVIDIA Grid. Auf einem SuperMicro GPU Host wird nach Update der Grid Host Treiber von 550 auf 570 unsere RTX A5000 nicht mehr über nvidia-smi erkannt. Nach Downgrade auf 550 funktioniert wieder alles einwandfrei.

Proxmox 8.4 (letzter 8.X Stand)
Kernel: 6.8.12-15-pve

Es sind mehrere NVIDIA GPUs verbaut (RTX 4000, RTX A4000, RTX A5000) aber nur die A5000 ist GRID fähig. Die RTX4000 und A4000 werden auch sauber für Passthrough an vfio-pci gebunden. Die A5000 an nvidia. Auch die VFs sind sichtbar.

Weiter unten findet ihr ein paar Screenshots. Hat jemand eine Idee? Vielen Dank im voraus.

1761906363972.png

1761906282365.png

1761906322828.png

1761906451659.png
 

Attachments

Wer auch über das gleiche Problem stolpert:

Der NVIDIA Installer entscheidet selber, ob er die Open oder Closed Source Kernel Module installiert. Bei mir hat er die Open Source Kernel Module verwendet, die anscheinend nicht mit vGPU bzw. meiner A5000 kompatibel sind. Evtl. auch durch den Mischbetrieb verursacht. In diesem Fall habe ich explizit das Proprietary Kernel Modul bei Installation gewählt, danach wurde die GPU wieder für vGPU erkannt.

Code:
./NVIDIA-Linux-x86_64-580.95.02-vgpu-kvm.run --accept-license --no-questions --ui=none --kernel-module-type=proprietary --dkms

nvidia-smi
Mon Nov  3 09:48:41 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.02              Driver Version: 580.95.02      CUDA Version: N/A      |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA RTX A5000               Off |   00000000:1B:00.0 Off |                    0 |
| 30%   38C    P2              1W /  230W |       0MiB /  23028MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Wichtig ist der Parameter "--kernel-module-type=proprietary".
 
  • Like
Reactions: Falk R. and fireon