[SOLVED] Probleme bei Boot und den Interfaces

thoe · Jan 2, 2021

Hallo und allen ein gesundes Neues,

vielleicht kann mir jemand helfen oder einen Tipp geben.

Wir haben gerade Server von Thomas Krenn bekommen, mit denen ich Probleme habe wie noch nie. Es handelt sich um Neuinstallationen.
Das OS läuft auf zwei SSDs im ZFS-Raid1-Verbund. Soweit alles OK.

Hier erstmal die PVE-Version:

Code:

pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.78-2-pve)
pve-manager: 6.3-3 (running version: 6.3-3/eee5f901)
pve-kernel-5.4: 6.3-3
pve-kernel-helper: 6.3-3
pve-kernel-5.4.78-2-pve: 5.4.78-2
pve-kernel-5.4.73-1-pve: 5.4.73-1
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.4-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve3
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.16-pve1
libproxmox-acme-perl: 1.0.7
libproxmox-backup-qemu0: 1.0.2-1
libpve-access-control: 6.1-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.3-2
libpve-guest-common-perl: 3.1-3
libpve-http-server-perl: 3.1-1
libpve-storage-perl: 6.3-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.3-1
lxcfs: 4.0.3-pve3
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.0.6-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.4-3
pve-cluster: 6.2-1
pve-container: 3.3-2
pve-docs: 6.3-1
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-3
pve-firmware: 3.1-3
pve-ha-manager: 3.1-1
pve-i18n: 2.2-2
pve-qemu-kvm: 5.1.0-7
pve-xtermjs: 4.7.0-3
qemu-server: 6.3-2
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 0.8.5-pve1

Probleme fangen nach der Installation beim Start an mit:

Danach gehts weiter, dass das MGMt-Netzwerk nicht hochgefahren wird.
Ein systemctl restart networking.service hilft dann. Um das Mopped automatisch an den Start zu bringen hab ich folgendes in die crontab geschrieben:

Code:

@reboot sleep 10 && /root/startnet.sh

Inhalt der startnet.sh

Code:

/usr/bin/systemctl restart networking.service

exit 0

Allerdings werden nur 3 von 4 SFP+ Ports hochgefahren.
Grundsätzlich erkannt werden sie:

Code:

lspci | grep -i net
43:00.0 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
43:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
61:00.0 Ethernet controller: Intel Corporation Ethernet Controller 10G X550T (rev 01)
61:00.1 Ethernet controller: Intel Corporation Ethernet Controller 10G X550T (rev 01)
62:00.0 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
62:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
81:00.0 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
81:00.1 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)

dmesg -T |grep NIC
[Sat Jan  2 09:58:25 2021] i40e 0000:62:00.0 eth2: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[Sat Jan  2 09:58:25 2021] i40e 0000:62:00.1 eth0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[Sat Jan  2 09:58:25 2021] i40e 0000:43:00.0 eth1: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[Sat Jan  2 10:04:12 2021] igb 0000:81:00.0 enp129s0f0: igb: enp129s0f0 NIC Link is Up 100 Mbps Full Duplex, Flow Control: RX
[Sat Jan  2 10:04:16 2021] ixgbe 0000:61:00.0 eno1: NIC Link is Up 10 Gbps, Flow Control: None
[Sat Jan  2 10:04:17 2021] ixgbe 0000:61:00.1 eno2: NIC Link is Up 10 Gbps, Flow Control: None
[Sat Jan  2 11:11:49 2021] igb 0000:81:00.0 enp129s0f0: igb: enp129s0f0 NIC Link is Up 100 Mbps Full Duplex, Flow Control: RX)

Interface: 43:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02) wird nicht hochgefahren.
Es taucht in dmesg überhaupt nicht auf. Das Einzige, was ich gefunden habe ist folgendes:

Code:

pci 0000:43:00.1: reg 0x30: [mem 0xc6600000-0xc667ffff pref]

Damit kann ich aber leider nichts anfangen.

Hier die interfaces

Code:

auto lo
iface lo inet loopback

auto enp129s0f0
iface enp129s0f0 inet manual
#Member1/2 MGMT

auto enp129s0f1
iface enp129s0f1 inet manual
#Member 2/2 MGMT

auto eno1
iface eno1 inet manual
#Member 1/2 VLAN-Trunk

auto eno2
iface eno2 inet manual
#Member 2/2 VLAN-Trunk

auto enp67s0f0
iface enp67s0f0 inet manual

auto enp67s0f1
iface enp67s0f1 inet manual

auto enp98s0f0
iface enp98s0f0 inet manual

auto enp98s0f1
iface enp98s0f1 inet manual

auto bond0
iface bond0 inet manual
    bond-slaves enp129s0f0 enp129s0f1
    bond-miimon 100
    bond-mode 802.3ad
    bond-xmit-hash-policy layer2+3
#MGMT-Bond

auto bond1
iface bond1 inet manual
    bond-slaves eno1 eno2
    bond-miimon 100
    bond-mode 802.3ad
    bond-xmit-hash-policy layer2+3
    bond-miimom 100
#VLAN-Bond

auto vmbr0
iface vmbr0 inet static
    address 192.168.100.90/24
    gateway 192.168.100.1
    bridge-ports bond0
    bridge-stp off
    bridge-fd 0
#MGMT-Bridge

auto vmbr1
iface vmbr1 inet manual
    bridge-ports bond1
    bridge-stp off
    bridge-fd 0
    bridge-vlan-aware yes
    bridge-vids 2-4094
#Produktiv-Netz 10GBit/s (VLANs)

vorgesehener Verwendungszweck:
eno1 und eno2 sind vorgesehen für LAN (bond1 - vmbr 1)
enp129s0f0 und enp129s0f1 sind vorgesehen für MGMT (bond0 - vmbr0)
enp67s0f0 und enp67s0f1 sind vorgesehen für Migrationen und Corosync (bondX - vmbrX)....oder jeweils eine Karte ist noch in Überlegung.
enp98s0f0 und enp98s0f1 sind vorgesehen für Ceph (bond3....noch nicht erstellt

Hat jemand eine Idee, warum enp67s0f1 nicht hochkommt? HW-Fehler oder hab ich irgendwo nen Fehler, den ich nicht sehe?

Ich nochmal,

Nachtrag: bei den LWL-Dual-Karten handelt es sich um:

Code:

Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)

Davon sind jeweils zwei pro Server verbaut.
Eine wird komplett erkannt, bei der Zweiten nur ein Port.

dmesg schmeisst Call Traces:

Code:

[Mo Jan  4 14:23:09 2021] INFO: task systemd-udevd:593 blocked for more than 1208 seconds.
[Mo Jan  4 14:23:09 2021]       Tainted: P           O      5.4.78-2-pve #1
[Mo Jan  4 14:23:09 2021] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[Mo Jan  4 14:23:09 2021] systemd-udevd   D    0   593      1 0x80004000
[Mo Jan  4 14:23:09 2021] Call Trace:
[Mo Jan  4 14:23:09 2021]  __schedule+0x2e6/0x6f0
[Mo Jan  4 14:23:09 2021]  schedule+0x33/0xa0
[Mo Jan  4 14:23:09 2021]  schedule_timeout+0x205/0x330
[Mo Jan  4 14:23:09 2021]  wait_for_completion+0xb7/0x140
[Mo Jan  4 14:23:09 2021]  ? wake_up_q+0x80/0x80
[Mo Jan  4 14:23:09 2021]  __flush_work+0x131/0x1e0
[Mo Jan  4 14:23:09 2021]  ? worker_detach_from_pool+0xb0/0xb0
[Mo Jan  4 14:23:09 2021]  work_on_cpu+0x6d/0x90
[Mo Jan  4 14:23:09 2021]  ? workqueue_congested+0x80/0x80
[Mo Jan  4 14:23:09 2021]  ? pci_device_shutdown+0x60/0x60
[Mo Jan  4 14:23:09 2021]  pci_device_probe+0x190/0x1b0
[Mo Jan  4 14:23:09 2021]  really_probe+0x1c8/0x3e0
[Mo Jan  4 14:23:09 2021]  driver_probe_device+0xbb/0x100
[Mo Jan  4 14:23:09 2021]  device_driver_attach+0x58/0x60
[Mo Jan  4 14:23:09 2021]  __driver_attach+0x8f/0x150
[Mo Jan  4 14:23:09 2021]  ? device_driver_attach+0x60/0x60
[Mo Jan  4 14:23:09 2021]  bus_for_each_dev+0x79/0xc0
[Mo Jan  4 14:23:09 2021]  ? kmem_cache_alloc_trace+0x1ab/0x240
[Mo Jan  4 14:23:09 2021]  driver_attach+0x1e/0x20
[Mo Jan  4 14:23:09 2021]  bus_add_driver+0x154/0x1f0
[Mo Jan  4 14:23:09 2021]  ? trace_event_define_fields_i40e_xmit_template+0x8b/0x8b [i40e]
[Mo Jan  4 14:23:09 2021]  driver_register+0x70/0xc0
[Mo Jan  4 14:23:09 2021]  ? trace_event_define_fields_i40e_xmit_template+0x8b/0x8b [i40e]
[Mo Jan  4 14:23:09 2021]  __pci_register_driver+0x57/0x60
[Mo Jan  4 14:23:09 2021]  i40e_init_module+0xa3/0xe01 [i40e]
[Mo Jan  4 14:23:09 2021]  do_one_initcall+0x4a/0x1fa
[Mo Jan  4 14:23:09 2021]  ? _cond_resched+0x19/0x30
[Mo Jan  4 14:23:09 2021]  ? kmem_cache_alloc_trace+0x1ab/0x240
[Mo Jan  4 14:23:09 2021]  do_init_module+0x60/0x230
[Mo Jan  4 14:23:09 2021]  load_module+0x231b/0x2590
[Mo Jan  4 14:23:09 2021]  __do_sys_finit_module+0xbd/0x120
[Mo Jan  4 14:23:09 2021]  ? __do_sys_finit_module+0xbd/0x120
[Mo Jan  4 14:23:09 2021]  __x64_sys_finit_module+0x1a/0x20
[Mo Jan  4 14:23:09 2021]  do_syscall_64+0x57/0x190
[Mo Jan  4 14:23:09 2021]  entry_SYSCALL_64_after_hwframe+0x44/0xa9
[Mo Jan  4 14:23:09 2021] RIP: 0033:0x7f431bee5f59
[Mo Jan  4 14:23:09 2021] Code: Bad RIP value.
[Mo Jan  4 14:23:09 2021] RSP: 002b:00007ffd58884ca8 EFLAGS: 00000246 ORIG_RAX: 0000000000000139
[Mo Jan  4 14:23:09 2021] RAX: ffffffffffffffda RBX: 0000561cc31b20f0 RCX: 00007f431bee5f59
[Mo Jan  4 14:23:09 2021] RDX: 0000000000000000 RSI: 00007f431bdeacad RDI: 0000000000000005
[Mo Jan  4 14:23:09 2021] RBP: 00007f431bdeacad R08: 0000000000000000 R09: 0000561cc319af40
[Mo Jan  4 14:23:09 2021] R10: 0000000000000005 R11: 0000000000000246 R12: 0000000000000000
[Mo Jan  4 14:23:09 2021] R13: 0000561cc3199270 R14: 0000000000020000 R15: 0000561cc31b20f0
[Mo Jan  4 14:23:43 2021] iavf: Intel(R) Ethernet Adaptive Virtual Function Network Driver - version 3.2.3-k
[Mo Jan  4 14:23:43 2021] Copyright (c) 2013 - 2018 Intel Corporation.

Treiber scheint allerdings geladen zu sein:

Code:

modinfo i40evf | grep ver
filename:       /lib/modules/5.4.78-2-pve/kernel/drivers/net/ethernet/intel/iavf/iavf.ko
version:        3.2.3-k
description:    Intel(R) Ethernet Adaptive Virtual Function Network Driver
srcversion:     F9A8E583B923A1D883E54D1
vermagic:       5.4.78-2-pve SMP mod_unload modversions

Ich habe heute vormittag Proxmox komplett runtergeschmissen und Debian Buster installiert.
Genau das selbe Phänomen. Selber Port wird nicht erkannt.

lshw -class network zeigt mir aber beide Ports der Karte an allerdings nur einen davon mit MAC und logical name:

Code:

lshw -class network
  *-network:0             
       description: Ethernet interface
       product: Ethernet Controller X710 for 10GbE SFP+
       vendor: Intel Corporation
       physical id: 0
       bus info: pci@0000:43:00.0
       logical name: enp67s0f0
       logical name: /dev/fb0
       version: 02
       serial: 40:a6:b7:39:85:9c
       size: 10Gbit/s
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi msix pciexpress vpd bus_master cap_list rom ethernet physical fibre autonegotiation fb
       configuration: autonegotiation=off broadcast=yes depth=32 driver=i40e driverversion=2.8.20-k duplex=full firmware=7.20 0x8000794b 1.2585.0 latency=0 link=yes mode=1280x1024 multicast=yes port=fibre speed=10Gbit/s visual=truecolor xres=1280 yres=1024
       resources: iomemory:1800-17ff iomemory:1800-17ff irq:344 memory:18021000000-180217fffff memory:18022000000-18022007fff memory:c6680000-c66fffff memory:18021800000-18021bfffff memory:18022010000-1802210ffff
  *-network:1
       description: Ethernet controller
       product: Ethernet Controller X710 for 10GbE SFP+
       vendor: Intel Corporation
       physical id: 0.1
       bus info: pci@0000:43:00.1
       version: 02
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi msix pciexpress vpd bus_master cap_list rom
       configuration: driver=i40e latency=0
       resources: iomemory:1800-17ff irq:344 memory:c3800000-c3ffffff memory:18022008000-1802200ffff memory:c6600000-c667ffff memory:18021c00000-18021ffffff memory:18022110000-1802220ffff

Beim umhertauschen der LWL-Kabel bzw. der SFP's wanderte der Fehler nicht mit. Da schein wohl alles i.O. zu sein.
Das Koriose ist, dass es bei allen drei Servern gleich ist. Immer der selbe Port wird nicht erkannt.

Hat denn wirklich keiner eine Idee?

Gruß Thomas

thoe · Jan 4, 2021

\o/ ich habs!!!

<Verzweilfungstat>
Habe die Positionen der Gigabit-Karte und die der nur halb erkannten Karte getauscht.
</Verzweiflungstat>

Jetzt geht alles. Erklären kann ich es noch nicht. Nagelneue Hardware, vorletzte Woche geliefert...

Gruß Thomas

Search

Search

[SOLVED] Probleme bei Boot und den Interfaces

thoe

Well-Known Member

thoe

Well-Known Member

We value your privacy