Hallo und allen ein gesundes Neues,
vielleicht kann mir jemand helfen oder einen Tipp geben.
Wir haben gerade Server von Thomas Krenn bekommen, mit denen ich Probleme habe wie noch nie. Es handelt sich um Neuinstallationen.
Das OS läuft auf zwei SSDs im ZFS-Raid1-Verbund. Soweit alles OK.
Hier erstmal die PVE-Version:
Probleme fangen nach der Installation beim Start an mit:
Danach gehts weiter, dass das MGMt-Netzwerk nicht hochgefahren wird.
Ein systemctl restart networking.service hilft dann. Um das Mopped automatisch an den Start zu bringen hab ich folgendes in die crontab geschrieben:
Inhalt der startnet.sh
Allerdings werden nur 3 von 4 SFP+ Ports hochgefahren.
Grundsätzlich erkannt werden sie:
Interface: 43:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02) wird nicht hochgefahren.
Es taucht in dmesg überhaupt nicht auf. Das Einzige, was ich gefunden habe ist folgendes:
Damit kann ich aber leider nichts anfangen.
Hier die interfaces
vorgesehener Verwendungszweck:
eno1 und eno2 sind vorgesehen für LAN (bond1 - vmbr 1)
enp129s0f0 und enp129s0f1 sind vorgesehen für MGMT (bond0 - vmbr0)
enp67s0f0 und enp67s0f1 sind vorgesehen für Migrationen und Corosync (bondX - vmbrX)....oder jeweils eine Karte ist noch in Überlegung.
enp98s0f0 und enp98s0f1 sind vorgesehen für Ceph (bond3....noch nicht erstellt
Hat jemand eine Idee, warum enp67s0f1 nicht hochkommt? HW-Fehler oder hab ich irgendwo nen Fehler, den ich nicht sehe?
Ich nochmal,
Nachtrag: bei den LWL-Dual-Karten handelt es sich um:
Davon sind jeweils zwei pro Server verbaut.
Eine wird komplett erkannt, bei der Zweiten nur ein Port.
dmesg schmeisst Call Traces:
Treiber scheint allerdings geladen zu sein:
Ich habe heute vormittag Proxmox komplett runtergeschmissen und Debian Buster installiert.
Genau das selbe Phänomen. Selber Port wird nicht erkannt.
lshw -class network zeigt mir aber beide Ports der Karte an allerdings nur einen davon mit MAC und logical name:
Beim umhertauschen der LWL-Kabel bzw. der SFP's wanderte der Fehler nicht mit. Da schein wohl alles i.O. zu sein.
Das Koriose ist, dass es bei allen drei Servern gleich ist. Immer der selbe Port wird nicht erkannt.
Hat denn wirklich keiner eine Idee?
Gruß Thomas
vielleicht kann mir jemand helfen oder einen Tipp geben.
Wir haben gerade Server von Thomas Krenn bekommen, mit denen ich Probleme habe wie noch nie. Es handelt sich um Neuinstallationen.
Das OS läuft auf zwei SSDs im ZFS-Raid1-Verbund. Soweit alles OK.
Hier erstmal die PVE-Version:
Code:
pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.78-2-pve)
pve-manager: 6.3-3 (running version: 6.3-3/eee5f901)
pve-kernel-5.4: 6.3-3
pve-kernel-helper: 6.3-3
pve-kernel-5.4.78-2-pve: 5.4.78-2
pve-kernel-5.4.73-1-pve: 5.4.73-1
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.4-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve3
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.16-pve1
libproxmox-acme-perl: 1.0.7
libproxmox-backup-qemu0: 1.0.2-1
libpve-access-control: 6.1-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.3-2
libpve-guest-common-perl: 3.1-3
libpve-http-server-perl: 3.1-1
libpve-storage-perl: 6.3-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.3-1
lxcfs: 4.0.3-pve3
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.0.6-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.4-3
pve-cluster: 6.2-1
pve-container: 3.3-2
pve-docs: 6.3-1
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-3
pve-firmware: 3.1-3
pve-ha-manager: 3.1-1
pve-i18n: 2.2-2
pve-qemu-kvm: 5.1.0-7
pve-xtermjs: 4.7.0-3
qemu-server: 6.3-2
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 0.8.5-pve1
Probleme fangen nach der Installation beim Start an mit:
Danach gehts weiter, dass das MGMt-Netzwerk nicht hochgefahren wird.
Ein systemctl restart networking.service hilft dann. Um das Mopped automatisch an den Start zu bringen hab ich folgendes in die crontab geschrieben:
Code:
@reboot sleep 10 && /root/startnet.sh
Inhalt der startnet.sh
Code:
/usr/bin/systemctl restart networking.service
exit 0
Allerdings werden nur 3 von 4 SFP+ Ports hochgefahren.
Grundsätzlich erkannt werden sie:
Code:
lspci | grep -i net
43:00.0 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
43:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
61:00.0 Ethernet controller: Intel Corporation Ethernet Controller 10G X550T (rev 01)
61:00.1 Ethernet controller: Intel Corporation Ethernet Controller 10G X550T (rev 01)
62:00.0 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
62:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
81:00.0 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
81:00.1 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
dmesg -T |grep NIC
[Sat Jan 2 09:58:25 2021] i40e 0000:62:00.0 eth2: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[Sat Jan 2 09:58:25 2021] i40e 0000:62:00.1 eth0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[Sat Jan 2 09:58:25 2021] i40e 0000:43:00.0 eth1: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[Sat Jan 2 10:04:12 2021] igb 0000:81:00.0 enp129s0f0: igb: enp129s0f0 NIC Link is Up 100 Mbps Full Duplex, Flow Control: RX
[Sat Jan 2 10:04:16 2021] ixgbe 0000:61:00.0 eno1: NIC Link is Up 10 Gbps, Flow Control: None
[Sat Jan 2 10:04:17 2021] ixgbe 0000:61:00.1 eno2: NIC Link is Up 10 Gbps, Flow Control: None
[Sat Jan 2 11:11:49 2021] igb 0000:81:00.0 enp129s0f0: igb: enp129s0f0 NIC Link is Up 100 Mbps Full Duplex, Flow Control: RX)
Interface: 43:00.1 Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02) wird nicht hochgefahren.
Es taucht in dmesg überhaupt nicht auf. Das Einzige, was ich gefunden habe ist folgendes:
Code:
pci 0000:43:00.1: reg 0x30: [mem 0xc6600000-0xc667ffff pref]
Hier die interfaces
Code:
auto lo
iface lo inet loopback
auto enp129s0f0
iface enp129s0f0 inet manual
#Member1/2 MGMT
auto enp129s0f1
iface enp129s0f1 inet manual
#Member 2/2 MGMT
auto eno1
iface eno1 inet manual
#Member 1/2 VLAN-Trunk
auto eno2
iface eno2 inet manual
#Member 2/2 VLAN-Trunk
auto enp67s0f0
iface enp67s0f0 inet manual
auto enp67s0f1
iface enp67s0f1 inet manual
auto enp98s0f0
iface enp98s0f0 inet manual
auto enp98s0f1
iface enp98s0f1 inet manual
auto bond0
iface bond0 inet manual
bond-slaves enp129s0f0 enp129s0f1
bond-miimon 100
bond-mode 802.3ad
bond-xmit-hash-policy layer2+3
#MGMT-Bond
auto bond1
iface bond1 inet manual
bond-slaves eno1 eno2
bond-miimon 100
bond-mode 802.3ad
bond-xmit-hash-policy layer2+3
bond-miimom 100
#VLAN-Bond
auto vmbr0
iface vmbr0 inet static
address 192.168.100.90/24
gateway 192.168.100.1
bridge-ports bond0
bridge-stp off
bridge-fd 0
#MGMT-Bridge
auto vmbr1
iface vmbr1 inet manual
bridge-ports bond1
bridge-stp off
bridge-fd 0
bridge-vlan-aware yes
bridge-vids 2-4094
#Produktiv-Netz 10GBit/s (VLANs)
vorgesehener Verwendungszweck:
eno1 und eno2 sind vorgesehen für LAN (bond1 - vmbr 1)
enp129s0f0 und enp129s0f1 sind vorgesehen für MGMT (bond0 - vmbr0)
enp67s0f0 und enp67s0f1 sind vorgesehen für Migrationen und Corosync (bondX - vmbrX)....oder jeweils eine Karte ist noch in Überlegung.
enp98s0f0 und enp98s0f1 sind vorgesehen für Ceph (bond3....noch nicht erstellt
Hat jemand eine Idee, warum enp67s0f1 nicht hochkommt? HW-Fehler oder hab ich irgendwo nen Fehler, den ich nicht sehe?
Ich nochmal,
Nachtrag: bei den LWL-Dual-Karten handelt es sich um:
Code:
Ethernet controller: Intel Corporation Ethernet Controller X710 for 10GbE SFP+ (rev 02)
Davon sind jeweils zwei pro Server verbaut.
Eine wird komplett erkannt, bei der Zweiten nur ein Port.
dmesg schmeisst Call Traces:
Code:
[Mo Jan 4 14:23:09 2021] INFO: task systemd-udevd:593 blocked for more than 1208 seconds.
[Mo Jan 4 14:23:09 2021] Tainted: P O 5.4.78-2-pve #1
[Mo Jan 4 14:23:09 2021] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[Mo Jan 4 14:23:09 2021] systemd-udevd D 0 593 1 0x80004000
[Mo Jan 4 14:23:09 2021] Call Trace:
[Mo Jan 4 14:23:09 2021] __schedule+0x2e6/0x6f0
[Mo Jan 4 14:23:09 2021] schedule+0x33/0xa0
[Mo Jan 4 14:23:09 2021] schedule_timeout+0x205/0x330
[Mo Jan 4 14:23:09 2021] wait_for_completion+0xb7/0x140
[Mo Jan 4 14:23:09 2021] ? wake_up_q+0x80/0x80
[Mo Jan 4 14:23:09 2021] __flush_work+0x131/0x1e0
[Mo Jan 4 14:23:09 2021] ? worker_detach_from_pool+0xb0/0xb0
[Mo Jan 4 14:23:09 2021] work_on_cpu+0x6d/0x90
[Mo Jan 4 14:23:09 2021] ? workqueue_congested+0x80/0x80
[Mo Jan 4 14:23:09 2021] ? pci_device_shutdown+0x60/0x60
[Mo Jan 4 14:23:09 2021] pci_device_probe+0x190/0x1b0
[Mo Jan 4 14:23:09 2021] really_probe+0x1c8/0x3e0
[Mo Jan 4 14:23:09 2021] driver_probe_device+0xbb/0x100
[Mo Jan 4 14:23:09 2021] device_driver_attach+0x58/0x60
[Mo Jan 4 14:23:09 2021] __driver_attach+0x8f/0x150
[Mo Jan 4 14:23:09 2021] ? device_driver_attach+0x60/0x60
[Mo Jan 4 14:23:09 2021] bus_for_each_dev+0x79/0xc0
[Mo Jan 4 14:23:09 2021] ? kmem_cache_alloc_trace+0x1ab/0x240
[Mo Jan 4 14:23:09 2021] driver_attach+0x1e/0x20
[Mo Jan 4 14:23:09 2021] bus_add_driver+0x154/0x1f0
[Mo Jan 4 14:23:09 2021] ? trace_event_define_fields_i40e_xmit_template+0x8b/0x8b [i40e]
[Mo Jan 4 14:23:09 2021] driver_register+0x70/0xc0
[Mo Jan 4 14:23:09 2021] ? trace_event_define_fields_i40e_xmit_template+0x8b/0x8b [i40e]
[Mo Jan 4 14:23:09 2021] __pci_register_driver+0x57/0x60
[Mo Jan 4 14:23:09 2021] i40e_init_module+0xa3/0xe01 [i40e]
[Mo Jan 4 14:23:09 2021] do_one_initcall+0x4a/0x1fa
[Mo Jan 4 14:23:09 2021] ? _cond_resched+0x19/0x30
[Mo Jan 4 14:23:09 2021] ? kmem_cache_alloc_trace+0x1ab/0x240
[Mo Jan 4 14:23:09 2021] do_init_module+0x60/0x230
[Mo Jan 4 14:23:09 2021] load_module+0x231b/0x2590
[Mo Jan 4 14:23:09 2021] __do_sys_finit_module+0xbd/0x120
[Mo Jan 4 14:23:09 2021] ? __do_sys_finit_module+0xbd/0x120
[Mo Jan 4 14:23:09 2021] __x64_sys_finit_module+0x1a/0x20
[Mo Jan 4 14:23:09 2021] do_syscall_64+0x57/0x190
[Mo Jan 4 14:23:09 2021] entry_SYSCALL_64_after_hwframe+0x44/0xa9
[Mo Jan 4 14:23:09 2021] RIP: 0033:0x7f431bee5f59
[Mo Jan 4 14:23:09 2021] Code: Bad RIP value.
[Mo Jan 4 14:23:09 2021] RSP: 002b:00007ffd58884ca8 EFLAGS: 00000246 ORIG_RAX: 0000000000000139
[Mo Jan 4 14:23:09 2021] RAX: ffffffffffffffda RBX: 0000561cc31b20f0 RCX: 00007f431bee5f59
[Mo Jan 4 14:23:09 2021] RDX: 0000000000000000 RSI: 00007f431bdeacad RDI: 0000000000000005
[Mo Jan 4 14:23:09 2021] RBP: 00007f431bdeacad R08: 0000000000000000 R09: 0000561cc319af40
[Mo Jan 4 14:23:09 2021] R10: 0000000000000005 R11: 0000000000000246 R12: 0000000000000000
[Mo Jan 4 14:23:09 2021] R13: 0000561cc3199270 R14: 0000000000020000 R15: 0000561cc31b20f0
[Mo Jan 4 14:23:43 2021] iavf: Intel(R) Ethernet Adaptive Virtual Function Network Driver - version 3.2.3-k
[Mo Jan 4 14:23:43 2021] Copyright (c) 2013 - 2018 Intel Corporation.
Treiber scheint allerdings geladen zu sein:
Code:
modinfo i40evf | grep ver
filename: /lib/modules/5.4.78-2-pve/kernel/drivers/net/ethernet/intel/iavf/iavf.ko
version: 3.2.3-k
description: Intel(R) Ethernet Adaptive Virtual Function Network Driver
srcversion: F9A8E583B923A1D883E54D1
vermagic: 5.4.78-2-pve SMP mod_unload modversions
Ich habe heute vormittag Proxmox komplett runtergeschmissen und Debian Buster installiert.
Genau das selbe Phänomen. Selber Port wird nicht erkannt.
lshw -class network zeigt mir aber beide Ports der Karte an allerdings nur einen davon mit MAC und logical name:
Code:
lshw -class network
*-network:0
description: Ethernet interface
product: Ethernet Controller X710 for 10GbE SFP+
vendor: Intel Corporation
physical id: 0
bus info: pci@0000:43:00.0
logical name: enp67s0f0
logical name: /dev/fb0
version: 02
serial: 40:a6:b7:39:85:9c
size: 10Gbit/s
width: 64 bits
clock: 33MHz
capabilities: pm msi msix pciexpress vpd bus_master cap_list rom ethernet physical fibre autonegotiation fb
configuration: autonegotiation=off broadcast=yes depth=32 driver=i40e driverversion=2.8.20-k duplex=full firmware=7.20 0x8000794b 1.2585.0 latency=0 link=yes mode=1280x1024 multicast=yes port=fibre speed=10Gbit/s visual=truecolor xres=1280 yres=1024
resources: iomemory:1800-17ff iomemory:1800-17ff irq:344 memory:18021000000-180217fffff memory:18022000000-18022007fff memory:c6680000-c66fffff memory:18021800000-18021bfffff memory:18022010000-1802210ffff
*-network:1
description: Ethernet controller
product: Ethernet Controller X710 for 10GbE SFP+
vendor: Intel Corporation
physical id: 0.1
bus info: pci@0000:43:00.1
version: 02
width: 64 bits
clock: 33MHz
capabilities: pm msi msix pciexpress vpd bus_master cap_list rom
configuration: driver=i40e latency=0
resources: iomemory:1800-17ff irq:344 memory:c3800000-c3ffffff memory:18022008000-1802200ffff memory:c6600000-c667ffff memory:18021c00000-18021ffffff memory:18022110000-1802220ffff
Beim umhertauschen der LWL-Kabel bzw. der SFP's wanderte der Fehler nicht mit. Da schein wohl alles i.O. zu sein.
Das Koriose ist, dass es bei allen drei Servern gleich ist. Immer der selbe Port wird nicht erkannt.
Hat denn wirklich keiner eine Idee?
Gruß Thomas
Last edited: