Hallo zusammen,
wir besitzen an 2 unterschiedlichen Standorten mehrere PVE Server, die seit dem Upgrade von PVE7 auf 8 Netzwerkprobleme aufweisen.
Ich habe schon diverse Hinweise gefunden, dass es bei DELL Servern Probleme geben soll, aber wir haben auch Supermicro-Server gleiche Probleme aufweisen.
Da diese teils so unscheinbar waren, haben wir bereits all unsere Server auf PVE8 (bzw. nun auf PVE8.1) gebracht.
Das Fehlerbild ist wie folgt:
Genau nach dem Upgrade und Reboot der PVE Server erfahren wir zufällige hohe Latenzen (normalerweise liegen die bei ca. 0.230ms, nach dem Upgrade je nach VM alle 1-5 Minuten springt der Wert auf bis zu 1500ms)
(Die Bilder haben eine hohe Timerange daher nicht wundern, das ist kein Dauerzustand)
Genau zu dem aufgezeigten Zeitpunkt wurde PVE8 installiert.
Wir haben seitdem schon jede Menge getestet mit folgenden Ergebnissen:
Grundsätzliche Konfiguration der VMs:
Aktuell prüfen wir noch:
Hat irgendwer eine Idee woran das liegen kann, bzw. was ich noch testen kann?
Viele Grüße
Sebastian
wir besitzen an 2 unterschiedlichen Standorten mehrere PVE Server, die seit dem Upgrade von PVE7 auf 8 Netzwerkprobleme aufweisen.
Ich habe schon diverse Hinweise gefunden, dass es bei DELL Servern Probleme geben soll, aber wir haben auch Supermicro-Server gleiche Probleme aufweisen.
Da diese teils so unscheinbar waren, haben wir bereits all unsere Server auf PVE8 (bzw. nun auf PVE8.1) gebracht.
Das Fehlerbild ist wie folgt:
Genau nach dem Upgrade und Reboot der PVE Server erfahren wir zufällige hohe Latenzen (normalerweise liegen die bei ca. 0.230ms, nach dem Upgrade je nach VM alle 1-5 Minuten springt der Wert auf bis zu 1500ms)
(Die Bilder haben eine hohe Timerange daher nicht wundern, das ist kein Dauerzustand)
Genau zu dem aufgezeigten Zeitpunkt wurde PVE8 installiert.
Wir haben seitdem schon jede Menge getestet mit folgenden Ergebnissen:
- Ping von PVE HOST zu PVE HOST scheint normal
- Kernel 6.5 oder 6.2 machen kein Unterschied (jeweils letzte Version stand letzte Woche)
- Ping von VM zu VM auf dem gleichen PVE Host ist ebenfalls problematisch, daher schließe ich tg3 Kernel Modul aus (wobei die SuperMicro Server dieses Modul gar nicht nutzen
- Letzter bekannter gute Zustand ist also der PVE7 5.15er Kernel
- Routen ändern sich während der Pings nicht
- VMs die wenig bis gar kein ToDo haben, scheinen das Problem nicht zu haben, bzw. geht die Latenz nur bis 15ms hoch (was aber auch schon komisch ist...)
- Ping von VM1(HOST1) zu VM2(HOST2) ist sowohl am INET Interface problematisch, sowie im Internen 25Gbit/s Netzwerk
- Das Problem existiert an beiden Standorten, somit ist ein Fehler im Netzwerk eigentlich auszuschließen (diese unterscheiden sich grundsätzlich)
- z.B. Standort 1 hat nur ein Single Interface Pro Netz (vmbr1 und 2), und Standort2 hat Bonds /MLAG
Grundsätzliche Konfiguration der VMs:
- HDD: VirtIO SCSI Single
- NET: VirtIO
- CPU: NUMA, Begrenzung VCPUs
- PVE Firewall
- Teilweise HOST CPU, teils KVM64 (mit kleinen Anpassungen)
- Komplett HOTPLUG
- Alle Qemu Agents
- HOST stellt lvm-thin bereit (Hardware RAID Controller / RAID 5/6/teils 1.0)
Aktuell prüfen wir noch:
- tso gso deaktivieren am HOST (derzeit nur in den VMs ohne Erfolg getestet)
- einen älteren 6.2er Kernel (da ich zu v18 z.B. einige BUG Reports gefunden habe)
Hat irgendwer eine Idee woran das liegen kann, bzw. was ich noch testen kann?
Viele Grüße
Sebastian
Last edited: