Proxmox virutal GPU mit SR-IOV - 1 VM startet, bei 2. rebootet der Proxmox Host

Vel

Member
Oct 4, 2021
9
2
8
Hallo zusammen

Ich arbeite aktuell an der Implementation von virutal GPU auf einem Proxmox Host. Mit der älteren Chiparchitektur "Turing" konnte ich bereits ein Setup erfolgreich in Betrieb nehmen. Die neuste Chiparchitektur "Apmere" nutzt aber SR-IOV, welches mich vor ein Problem stellt. Für die Umsetzung bin ich wie folgt vorgegangen:

  1. displaymodeselector --gpumode compute --auto
    Schaltet meine NVIDIA RTX A6000 in den "physical_display_disabled" Modus, welcher für vGPU erforderlich ist.

  2. ./NVIDIA-Linux-x86_64-470.63-vgpu-kvm.run
    Treiber Installation als Kernelmodul

  3. /usr/lib/nvidia/sriov-manage -e 000000:03:00.0
    Virtuelle Funktionen der GPU einschalten (SR-IOV)

  4. mdevctl types
    Zeigt nun alle SR-IOV Geräte an. Total 32 - dies ist die maximale Anzahl der virtuellen Instanzen, welche die Karte handeln kann

  5. Definition der Profile für VM (pro VM eine UUID) - diese habe ich mittels uuidgen generiert)
    mdevctl undefine --uuid 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6
    mdevctl start -u 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6 -p 0000:03:00.4 --type nvidia-529
    mdevctl define --auto --uuid 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6


  6. vi /etc/pve/qemu-server/100.conf mit folgendem args bestücken
    args: -device 'vfio-pci,sysfsdev=/sys/bus/mdev/devices/8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6,display=off,id=hostpci0.0,bus=ich9-pcie-port-1,addr=0x0.0,x-pci-vendor-id=0x10de,x-pci-device-id=0x2230,x-pci-sub-vendor-id=0x10de,x-pci-sub-device-id=0x1459' -uuid 8f3c0c79-7c5a-43a7-9a2e-9bbce38366c6

Die erste Maschine startet problemlos, Grafikkarte wird erkannt. Sobald die zweie Maschine gestartet wird, rebootet der Proxmox Host.

Im Anhang noch die Aufzeichnug der Logfiles, bis der Host crashed. Leider erkenne ich dort keinen Fehler.

Gibt es sonst noch Logfiles welche konsoliudiert werden können? Hat jemand sonst eine Idee?

Danke vielmals und beste Grüsse
 

Attachments

  • neu 1.txt
    31 KB · Views: 8
  • neu 2.txt
    37 KB · Views: 3
  • neu 3.txt
    13.1 KB · Views: 2
  • neu 4.txt
    2.5 KB · Views: 2
Es sieht so aus, als wäre es ein Bug im Kernel. Ich habe nun Proxmox von 6.4 auf 7.0 aktualisiert. Leider funktioniert der neuste NVIDIA vGPU Treiber nicht mit dieser Kernel Version. Nach einem Downgrade des Treiber funktionieirt es nun einwandfrei.
 
Schön zu hören. Damit wärst du der Erste, den ich hier lese, der erfolgreich eine GPU per SR-IOV in mehrere VMs durchgereicht bekommen hat. :cool:
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!