Server Upgrade - Unterstützung/Beratung bei Auswahl der Hardware

ok... also die GPU ist drin und wird auch vom OS erkannt. Das pci Passthrough klappt noch nicht ganz, aber ich hab ein anderes Problem, welches ich zuerst lösen muss...

Nach Einbau der GPU brauchte der Server 3-5 Anläufe um zu booten. Hatte in der Zeit natürlich keinen Monitor dran.
Dann fuhr alles hoch und ich konnte auch Proxmox über den Browser öffnen.

ABER: Die integrierten NIC's des Servers tauchen nicht mehr auf (eno1 und eno2).... In Proxmox werden sie als inaktiv angezeigt und ein "ip link show" zeigt die entsprechenden MAC Adressen gar nicht mehr an....
Die LED an den NIC's leuchten fleißig

Somit ist mein gesamtes Management-VLAN gerade nicht online (außer die virtuellen Maschinen).

Hat da einer eine Idee? Die pcie-4-Fach NIC Karte funktioniert, weshalb ich auch noch zugriff auf proxmox hab, aber nicht auf das irmc.

Werde vielleicht heute Abend oder morgen früh mal direkt Point-to-point an die Schnittstelle um zu schauen ob das irmc reagiert


Edit: Also direkt an den Management-Port vom Server komm ich. Dort werden mir auch die zwei anderen NIC's angezeigt. Warum werden die vom OS nicht mehr erkannt?

Edit:
- unnötige Bilder gelöscht

Es lichtet sich etwas:

Code:
root@pve:~# lspci -nn | grep -i net
68:00.0 Ethernet controller [0200]: Intel Corporation Ethernet Connection X722 [8086:37cc] (rev 09)
68:00.2 Ethernet controller [0200]: Intel Corporation Ethernet Connection X722 for 1GbE [8086:37d1] (rev 09)
68:00.3 Ethernet controller [0200]: Intel Corporation Ethernet Connection X722 for 1GbE [8086:37d1] (rev 09)
b3:00.0 Ethernet controller [0200]: Intel Corporation 82580 Gigabit Network Connection [8086:150e] (rev 01)
b3:00.1 Ethernet controller [0200]: Intel Corporation 82580 Gigabit Network Connection [8086:150e] (rev 01)
b3:00.2 Ethernet controller [0200]: Intel Corporation 82580 Gigabit Network Connection [8086:150e] (rev 01)
b3:00.3 Ethernet controller [0200]: Intel Corporation 82580 Gigabit Network Connection [8086:150e] (rev 01)
root@pve:~# dmesg | grep -i i40e
[    2.088366] i40e: Intel(R) Ethernet Connection XL710 Network Driver
[    2.088377] i40e: Copyright (c) 2013 - 2019 Intel Corporation.
[    2.088551] i40e 0000:68:00.2: Cannot map registers, bar size 0x0 too small, aborting
[    2.088608] i40e: probe of 0000:68:00.2 failed with error -12
[    2.088667] i40e 0000:68:00.3: Cannot map registers, bar size 0x0 too small, aborting
[    2.088712] i40e: probe of 0000:68:00.3 failed with error -12

Fehlermeldung: "Cannot map registers, bar size 0x0 too small, aborting"
Jetzt habe ich etwas davon gelesen, dass man im BIOS "Above 4G Decoding" aktivieren soll. Die Option dafür habe ich beim letzten mal im BIOS gesehen und bin mir sicher, dass das deaktiviert war. Genauso war "SR-IOV Support" deaktiviert.

Scheinbar verteilte der Kernel nach Einbau der GPU die PCIe-Ressourcen neu. Das würde auch die mehrfachen Neustarts erklären.

Ich werde morgen früh mal die beiden Funktionen im BIOS aktivieren und schauen, ob es danach läuft.

Außerdem kann ich im BIOS noch "Option ROM Execution" für die einzelnen PCIe Slots aktivieren. Brauch ich das?

Seht ihr das auch so? Danke schonmal
 

Attachments

  • 1.jpeg
    1.jpeg
    503.7 KB · Views: 9
Last edited:
Boote mal eine live-distri, damit du sehen kannst ob es generell klappt oder nicht. Macht irgendwie den Eindruck von komischer Ressourcenzuweisung, Monitor dran wäre natürlich sahnig. ;)
 
  • Like
Reactions: Johannes S
Boote mal eine live-distri, damit du sehen kannst ob es generell klappt oder nicht. Macht irgendwie den Eindruck von komischer Ressourcenzuweisung, Monitor dran wäre natürlich sahnig. ;)
Jetzt hat sich dein Post wahrscheinlich mit meinem Edit überschnitten. Hast du mal meine letzten (editierten) Zeilen gelesen? Was sagst du dazu?
 
Jetzt hat sich dein Post wahrscheinlich mit meinem Edit überschnitten.
So ist es.

Jetzt habe ich etwas davon gelesen, dass man im BIOS "Above 4G Decoding" aktivieren soll
Ja, das ist es ziemlich sicher. Suche noch nach "Rebar", das auch aktivieren. Beides will auch die nvidia.
SR-IOV brauchts dafür nicht. Das ist dafür wenn du MDEV/Kindsinstanzen deiner Karten bräuchtest.

Scheinbar verteilte der Kernel nach Einbau der GPU die PCIe-Ressourcen neu. Das würde auch die mehrfachen Neustarts erklären.
Exakt. Wenn das danach immer noch nicht lüppt:
pci=realloc=offin die /etc/kernel/cmdline (falls du schon UEFI bootest) hinzufügen, proxmox-boot-tool refresh + *reboot*

Außerdem kann ich im BIOS noch "Option ROM Execution" für die einzelnen PCIe Slots aktivieren. Brauch ich das?
Brauchen nein, aber schadet auch nicht (es sei denn, eine Karte hat kein UEFI-kompatibles oprom. Falls dem so ist und eine Karte nur ein legacy oprom hat, muss/kann man das deaktivieren, damit dem UEFI-boot nichts im Wege steht). Miss in beiden Fällen mal den Stromverbrauch/ob ASPM funzt, nachdem die Kiste sich berappelt hat und einigermaßen idle ist +-5 mins nach dem boot.
Die Grundfunktion ist Postmenüs von den jeweiligen Karten anzeigen j/n. Bei einem Raidcontroller z.B. wählen, von welchem raid gebootet werden soll oder bei einer NIC, ob z.B. iscsi gebootet werden soll.
Wie in einem vorherigen Post erwähnt, kann das erst bei einer Karte funktionieres ASPM ermöglichen, aber sicher bin ich mir nicht. Daher mal Stromverbrauch durchmessen mit und ohne dieser Funktion.

Edit:
da du eh noch am Basteln bist und das noch nicht produktiv rennt, ist das die beste Gelegenheit sich gleich noch um aktuelle Firmware der NICs zu kümmern:
 
Last edited: