Hallo Zusammen,
ich habe Probleme mit (sporadischen) Neustarts an einem neuen Proxmox-Server bei Hetzner.
Es handelt sich um einen EX101 mit 64 GB ECC Ram, 2x 2TB NVMe-SSDs und einer Intel® Core™ i9-13900-CPU. Ich habe 64 GB zusätzlichen RAM bestellt; d.h. 128 GB ECC vorhanden.
Installiert habe ich ihn mit der aktuellen Proxmox-ISO über eine bereitgestellte KVM. Für die Festplatten habe ich ein ZFS-RAID1 erstellt.
Die Anbindung via IP habe ich wie folgt realisiert:
- Die öffentliche Haupt-IP ist direkt an den PVE gebunden. Den Zugriff von Extern habe ich über die Hetzner-Firewall deaktiviert (vmbr0, gebunden an den phys. Netzwerkadapter)
--> Ich habe eine zweite Bridge, vmbr1 erstellt, in der der Proxmox-Server ebenfalls eine lokale IP besitzt
- Eine gebuchte zweite, öffentliche IP, bei der der Zugriff über die Hetzner-FW unbeschränkt ist, ist an eine virtuelle pfSense gebunden (WAN, vmbr1)
--> Diese pfSense stellt das interne Netzwerk für weitere VMs zur Verfügung (LAN, vmbr1)
--> Zugriff erhalte ich via VPN an die öffentliche Zweit-IP (pfSense). Damit der PVE-Host via VPN über die interne IP in vmbr1 die Rückroute über das VPN kennt, habe ich eine dedizierte Route hinzugefügt (siehe nachfolgend)
Mein Problem:
"Manchmal", wenn ich einen LXC-Container erstellte und das vmbr1-Interface sowie eine IP-Konfiguration angebe, startet der Host spontan neu. Der erstellte Container ist dann nur halb angelegt:
Der Server läuft erst seit wenigen Tagen; in der vergangenen Nacht konnte ich einen spontanen Neustart in den Logs sehen - leider ebenfalls ohne weitere Infos. Es scheint also weniger ein Problem beim Anlegen von LXCs zu sein, sondern eher ein generelles Problem - vielleicht in Verbindung mit der Netzwerk-Konfiguration.
Im Syslog tauchen keine weiteren Informationen auf:
Anmerkungen:
- Die SNMP-Fehlermeldung habe ich recherchiert; es handelt sich um einen Bug in der SNMP-Bibliothek mit neueren Kerneln der angeblich schon gefixt ist. Ich vermute, der Patch hat den Weg noch nicht in das Debian-Repo gefunden
- Die split-lock-Meldung habe ich ebenfalls recherchiert und geprüft, ob VMs unter Last viele split-locks generieren. Dem war nicht so, deshalb habe ich diese Sicherheitsfunktion aktiviert gelassen.
Die Netzwerkkonfiguration sieht wie folgt aus:
Ich habe keine Fehler o.ä. in den relevanten Logs gefunden, die auf ein bestimmtes Problem hinweisen :-/
Bei der Erstellung von VMs, z.B. der pfSense, habe ich keine Neustarts oder Probleme bemerkt.
Hat von euch jemand eine Idee, woran das Problem liegen könnte? Ist an meiner Netzwerkkonfiguration ggf. etwas falsch?
Liebe Grüße,
Bastian
Edit: Ich habe testweise die split-lock-detection im Kernel deaktiviert und auch mal den vorherigen Proxmox-Kernel gebootet. Das Problem mit den Neustarts ist weiterhin reproduzierbar.
ich habe Probleme mit (sporadischen) Neustarts an einem neuen Proxmox-Server bei Hetzner.
Es handelt sich um einen EX101 mit 64 GB ECC Ram, 2x 2TB NVMe-SSDs und einer Intel® Core™ i9-13900-CPU. Ich habe 64 GB zusätzlichen RAM bestellt; d.h. 128 GB ECC vorhanden.
Installiert habe ich ihn mit der aktuellen Proxmox-ISO über eine bereitgestellte KVM. Für die Festplatten habe ich ein ZFS-RAID1 erstellt.
Die Anbindung via IP habe ich wie folgt realisiert:
- Die öffentliche Haupt-IP ist direkt an den PVE gebunden. Den Zugriff von Extern habe ich über die Hetzner-Firewall deaktiviert (vmbr0, gebunden an den phys. Netzwerkadapter)
--> Ich habe eine zweite Bridge, vmbr1 erstellt, in der der Proxmox-Server ebenfalls eine lokale IP besitzt
- Eine gebuchte zweite, öffentliche IP, bei der der Zugriff über die Hetzner-FW unbeschränkt ist, ist an eine virtuelle pfSense gebunden (WAN, vmbr1)
--> Diese pfSense stellt das interne Netzwerk für weitere VMs zur Verfügung (LAN, vmbr1)
--> Zugriff erhalte ich via VPN an die öffentliche Zweit-IP (pfSense). Damit der PVE-Host via VPN über die interne IP in vmbr1 die Rückroute über das VPN kennt, habe ich eine dedizierte Route hinzugefügt (siehe nachfolgend)
Mein Problem:
"Manchmal", wenn ich einen LXC-Container erstellte und das vmbr1-Interface sowie eine IP-Konfiguration angebe, startet der Host spontan neu. Der erstellte Container ist dann nur halb angelegt:
Der Server läuft erst seit wenigen Tagen; in der vergangenen Nacht konnte ich einen spontanen Neustart in den Logs sehen - leider ebenfalls ohne weitere Infos. Es scheint also weniger ein Problem beim Anlegen von LXCs zu sein, sondern eher ein generelles Problem - vielleicht in Verbindung mit der Netzwerk-Konfiguration.
Im Syslog tauchen keine weiteren Informationen auf:
Code:
Oct 11 09:58:46 srz-prox1 login[7712]: ROOT LOGIN on '/dev/pts/0'
Oct 11 09:59:30 srz-prox1 snmpd[1425]: systemstats_linux: unexpected header length in /proc/net/snmp. 237 != 224
Oct 11 10:00:30 srz-prox1 snmpd[1425]: systemstats_linux: unexpected header length in /proc/net/snmp. 237 != 224
Oct 11 10:01:30 srz-prox1 snmpd[1425]: systemstats_linux: unexpected header length in /proc/net/snmp. 237 != 224
Oct 11 10:02:30 srz-prox1 systemd[1]: Starting systemd-tmpfiles-clean.service - Cleanup of Temporary Directories...
Oct 11 10:02:30 srz-prox1 snmpd[1425]: systemstats_linux: unexpected header length in /proc/net/snmp. 237 != 224
-- Reboot --
Oct 11 10:06:08 srz-prox1 kernel: Linux version 6.8.12-2-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-2 (2024-09-05T10:03Z) ()
Oct 11 10:06:08 srz-prox1 kernel: Command line: initrd=\EFI\proxmox\6.8.12-2-pve\initrd.img-6.8.12-2-pve root=ZFS=rpool/ROOT/pve-1 boot=zfs
Oct 11 10:06:08 srz-prox1 kernel: KERNEL supported cpus:
Oct 11 10:06:08 srz-prox1 kernel: Intel GenuineIntel
Oct 11 10:06:08 srz-prox1 kernel: AMD AuthenticAMD
Oct 11 10:06:08 srz-prox1 kernel: Hygon HygonGenuine
Oct 11 10:06:08 srz-prox1 kernel: Centaur CentaurHauls
Oct 11 10:06:08 srz-prox1 kernel: zhaoxin Shanghai
Oct 11 10:06:08 srz-prox1 kernel: x86/tme: not enabled by BIOS
Oct 11 10:06:08 srz-prox1 kernel: x86/split lock detection: #AC: crashing the kernel on kernel split_locks and warning on user-space split_locks
Anmerkungen:
- Die SNMP-Fehlermeldung habe ich recherchiert; es handelt sich um einen Bug in der SNMP-Bibliothek mit neueren Kerneln der angeblich schon gefixt ist. Ich vermute, der Patch hat den Weg noch nicht in das Debian-Repo gefunden
- Die split-lock-Meldung habe ich ebenfalls recherchiert und geprüft, ob VMs unter Last viele split-locks generieren. Dem war nicht so, deshalb habe ich diese Sicherheitsfunktion aktiviert gelassen.
Die Netzwerkkonfiguration sieht wie folgt aus:
Code:
root@srz-prox1:~# cat /etc/network/interfaces
# network interface settings; autogenerated
# Please do NOT modify this file directly, unless you know what
# you're doing.
#
# If you want to manage parts of the network configuration manually,
# please utilize the 'source' or 'source-directory' directives to do
# so.
# PVE will preserve these directives, but will NOT read its network
# configuration from sourced files, so do not attempt to move any of
# the PVE managed interfaces into external files!
auto lo
iface lo inet loopback
iface enp5s0 inet manual
auto vmbr0
iface vmbr0 inet static
address 88.xx.xx.242/26
gateway 88.xx.xx.193
bridge-ports enp5s0
bridge-stp off
bridge-fd 0
#Hetzner WAN
auto vmbr1
iface vmbr1 inet static
address 10.240.xx.2/24
bridge-ports none
bridge-stp off
bridge-fd 0
post-up ip route add 172.xx.xx.0/24 via 10.240.xx.1 dev vmbr1 #10.240.xx.1 = pfsense
post-up ip route add 192.xx.xx.0/24 via 10.240.xx.1 dev vmbr1 #10.240.xx.1 = pfsense
post-up ip route add 10.xx.xx.0/24 via 10.240.xx.1 dev vmbr1 #10.240.xx.1 = pfsense
#LAN (Server)
source /etc/network/interfaces.d/*
Ich habe keine Fehler o.ä. in den relevanten Logs gefunden, die auf ein bestimmtes Problem hinweisen :-/
Bei der Erstellung von VMs, z.B. der pfSense, habe ich keine Neustarts oder Probleme bemerkt.
Hat von euch jemand eine Idee, woran das Problem liegen könnte? Ist an meiner Netzwerkkonfiguration ggf. etwas falsch?
Liebe Grüße,
Bastian
Edit: Ich habe testweise die split-lock-detection im Kernel deaktiviert und auch mal den vorherigen Proxmox-Kernel gebootet. Das Problem mit den Neustarts ist weiterhin reproduzierbar.
Last edited: