Proxmox "friert" ein, wie am Besten auf Fehlersuche gehen?

mr-merkut

New Member
Dec 4, 2023
11
3
3
Hallo zusammen,

ich habe hier Proxmox und im LXC Container "Pi-Hole" installiert.
Im Schnitt alle 1-2 Wochen "friert" mir Proxmox ein und ich muss einen Neustart machen (klassisch Stecker ziehen).

Mir fehlt ein Ansatz, wie ich dem Fehler eingrenzen kann, habt ihr evtl. einen Ansatz für mich?

Danke euch. :cool:

PS: Bei Bedarf poste ich natürlich gerne verwendete Hardware, Versionsstände etc. falls meine Anfrage zu sehr Glaskugel ist.
 
@sb-jw das ist ja indirekt meine Frage, wo ich am besten mit meiner Suche starten soll. Bin neu mit Proxmox unterwegs.

Anbei meine Systemübersicht:

Bildschirmfoto 2023-12-04 um 14.48.19.png
 
@sb-jw das ist ja indirekt meine Frage, wo ich am besten mit meiner Suche starten soll. Bin neu mit Proxmox unterwegs.
Das vorgehen hat mit PVE an der Stelle erst mal nichts zu tun. Wie üblich bei Problemen ist es immer das gleiche vorgehen und die gleichen Fragestellungen.

Du bist erst mal in der Situation uns alle Infos an die Hand zu geben, dass wir uns in deine Lage versetzen können.
Dafür bedarf es immer einer Übersicht des aktuellen Setups in Hardware (möglichst genau) und dann der Software (PVE spezifisch hier ob VM oder Container, wie deren Config aussieht (Container: pct config VMID oder VM: qm config VMID), welche PVE Version pveversion -v). Dann benötigen wir die üblichen Logs (klassisch mind. /var/log/syslog) aus dem HV und dem Container / VM. Auch vorhandene Metriken etc. wären dabei hilfreich um zu erkennen ob die Last z. B. vorher extrem ansteigt.
Solltest du irgendwelche Jobs zum Zeitpunkt X am laufen haben, dann solltest du diese ebenfalls aufführen. Es kann z. B. ein Backup sein was läuft oder du hast irgendein cooles Script gefunden, wo du gar nicht so richtig weißt was es eigentlich tut.
Sowohl die Metriken als auch die Logs und Jobs etc sollten den Zeitraum des Problems abdecken +/- 1 Stunden reicht dabei oftmals.

Anschließend folgen deine Schilderungen zu dem Problem inkl. möglicher Anzeichen die es geben könnte (ganz egal wie unwichtig dir das erscheint). Die Anzeichen könnte dabei natürlich ganz unterschiedlich sein, die Container konnten vielleicht zeitweise nicht auf SSH Anfagen reagieren, deine Anwendungen können mal per Web nicht abgerufen werden oder die Verbindung dauert lange.
Es könnte auch sein, dass der Server z. B. immer nach dem erstellen von Backups hängt oder aber dein Router um X Uhr abgeschaltet wird und wieder startet.
Du solltest uns ebenfalls mitteilen, welche möglichen Maßnahmen du schon unternommen hast (z. B. ein OS Upgrade von Debian 11 auf 12 respektive PVE 7 auf 8) und ob diese irgendwas verändert haben (positiv als auch negativ).

All' das könnte uns helfen dein Problem näher zu verstehen - es kann auch sein, dass nichts davon relevant ist. Aber Ursachenforschung ist oftmals eben auch ein bisschen interpretieren und mögliche Verkettungen und Szenarien abbilden - nur so kommt man auf eine möglich Lösung.
 
  • Like
Reactions: mr-merkut
@sb-jw vielen Dank für den mega ausführlichen Input. Anbei Infos die hoffentlich einen ersten Ansatz der Fehlereingrenzung ermöglichen.

Ausgangsbasis:

Verhalten:
  • erstmal läuft alles wie gewünscht
  • nach ca. 1,5 Wochen erreiche ich etliche Geräte im Netzwerk nicht mehr
  • erster Check: Pi-hole Client unter iOS öffnen > Feststellen, dass keine Verbindung zum Host besteht
  • dann versuch Webinterface Proxmox zu öffnen > schlägt auch fehl
  • dann Stromversorgung unterbrechen > Gerät bootet automatisch
  • danach funktioniert wieder alles wie gewünscht

Hier das Syslog, bei Dec 04 06:37:17 sieht man "-- Reboot --", dass ist vermutlich, wo ich einfach den Stecker gezogen habe.
 

Attachments

Also ich bekomme basierend auf dem Log immer mehr das Gefühl, dass du einen Cluster erstellt hast und ggf sogar HA Dienste konfiguriert hast. Ich glaube nicht, dass diese Einträge auch bei einem Standalone Node entstehen.

Mach doch bitte mal ein pvecm status und poste den output in einem Code Tag.
 
  • Like
Reactions: mr-merkut
Hier das Syslog,

Kann es sein dass PiHole da schon länger nicht mehr funktioniert hat? Ca. 12 Stunden vorher hat sich die Netzwerkschnittstelle verabschiedet ...

Code:
Dec 03 18:21:23 pve kernel: ------------[ cut here ]------------
Dec 03 18:21:23 pve kernel: NETDEV WATCHDOG: enp1s0 (r8169): transmit queue 0 timed out
 
  • Like
Reactions: mr-merkut
blöde frage aber wenn das ganze System nur da ist um pi-hole am laufen zu haben, warum dann überhaupt ProxmoX?

Pi-hole kannst ja auch einfach so als Docker oder direkt aufs Blech unter Linux installieren
 
  • Like
Reactions: CoolTux
blöde frage aber wenn das ganze System nur da ist um pi-hole am laufen zu haben, warum dann überhaupt ProxmoX?

Pi-hole kannst ja auch einfach so als Docker oder direkt aufs Blech unter Linux installieren
Nun, ich hab damit erstmal angefangen.
Potentiell dürfen/sollen da weitere Dienste laufen.

Bei reiner Pi-Hole Installation hast du natürlich recht.
 
Also ich bekomme basierend auf dem Log immer mehr das Gefühl, dass du einen Cluster erstellt hast und ggf sogar HA Dienste konfiguriert hast. Ich glaube nicht, dass diese Einträge auch bei einem Standalone Node entstehen.

Mach doch bitte mal ein pvecm status und poste den output in einem Code Tag.

Hier die Ausgabe:

Code:
root@pve:~# pvecm status
Error: Corosync config '/etc/pve/corosync.conf' does not exist - is this node part of a cluster?

Klingt ja nach deiner Vermutung.
Kann man das denn bei der Grundinstallation beeinflussen?
Wie gesagt ich habe "nur" Proxomox installiert und nach der Anleitung von oben den LXC Container für Pi-Hole, weitere Einstellungen/Veränderungen habe ich nicht vorgenommen.
 
Kann es sein dass PiHole da schon länger nicht mehr funktioniert hat? Ca. 12 Stunden vorher hat sich die Netzwerkschnittstelle verabschiedet ...

Code:
Dec 03 18:21:23 pve kernel: ------------[ cut here ]------------
Dec 03 18:21:23 pve kernel: NETDEV WATCHDOG: enp1s0 (r8169): transmit queue 0 timed out

Hi,
guter Punkt, ich war an dem Abend nicht da und aufgefallen ist es am nächsten Morgen, als die Kinder die Alexa im Bad nicht bedienen konnten. :p
 
Hallo,
heute Nacht hat sich mein System wieder aufgehangen. :(
Den Hinweis von @Ernst T. habe ich auch wieder gefunden:

Dec 12 01:00:57 pve kernel: ------------[ cut here ]------------ Dec 12 01:00:57 pve kernel: NETDEV WATCHDOG: enp1s0 (r8169): transmit queue 0 timed out

Anbei noch das Syslog, wäre klasse, wenn ihr darin etwas entdeckt, was ich ausprobieren kann.

Danke euch! :cool:
 

Attachments

Würde empfehlen, mal auf PVE 8.1 und somit den 6.5er Kernel zu aktualisieren.
 
Wäre auch meine Empfehlung. Zu verlieren haste ja nichts. Schlimmer kann es ja wohl kaum werden.

Und in der Tat wird da ein HA Daemon gestartet, muss mal schauen ob das bei mir auch so ist.
 
Last edited:
OK, dass probiere ich gerne aus.
Müssen dazu irgendwelche Rechte gesetzt werden? Bekomme immer diese Meldung:

starting apt-get update Get:1 http://security.debian.org bookworm-security InRelease [48.0 kB] Hit:2 http://ftp.de.debian.org/debian bookworm InRelease Hit:3 http://ftp.de.debian.org/debian bookworm-updates InRelease Err:4 https://enterprise.proxmox.com/debian/ceph-quincy bookworm InRelease 401 Unauthorized [IP: 212.224.123.70 443] Err:5 https://enterprise.proxmox.com/debian/pve bookworm InRelease 401 Unauthorized [IP: 212.224.123.70 443] Reading package lists... E: Failed to fetch https://enterprise.proxmox.com/debian/ceph-quincy/dists/bookworm/InRelease 401 Unauthorized [IP: 212.224.123.70 443] E: The repository 'https://enterprise.proxmox.com/debian/ceph-quincy bookworm InRelease' is not signed. E: Failed to fetch https://enterprise.proxmox.com/debian/pve/dists/bookworm/InRelease 401 Unauthorized [IP: 212.224.123.70 443] E: The repository 'https://enterprise.proxmox.com/debian/pve bookworm InRelease' is not signed. TASK ERROR: command 'apt-get update' failed: exit code 100
 
Um mal meine eigene Glaskugel zu bemühen, da ich ein ähnliches Problem hatte/habe:

Hast du ggf. eine Realtek NIC? Das kannst du über die Konsole mit
Code:
lspci -nnk
herausfinden. Dort suchst du nach einem Eintrag in dieser Form:
Code:
01:00.0 Ethernet controller [0200]: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
        Subsystem: Dell RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [1028:07a3]
        Kernel driver in use: r8169
        Kernel modules: r8169

Dieses Netzwerkinterface hat Probleme mit dem mitgelieferten Treiber (r8169) und verliert nach manchmal Minuten, manchmal Stunden, oft auch Tagen oder sogar Wochen einfach "ohne Fehlermeldung" die Verbindung.

Um Abhilfe zu schaffen, muss man den vorherigen Treiber (r8168) installieren.

Das Problem ist, dass die r8168-Version nicht mehr zu 100% kompatibel mit dem aktuellen von Proxmox 8.1 verwendeten Kernel (6.5.x) ist.

D.h. die bestehenden Guides funktionieren nicht mehr komplett (z.B.: https://gist.github.com/SQLJames/fe6fcd5e819d864986ce2eff6ad350da).

Es gibt zwar schon Workarounds (z.B. hier: https://forum.proxmox.com/threads/proxmox-ve-8-1-released.136960/post-608898) um den r8168 unter Proxmox 8.1 lauffähig zu machen, aber da bin ich auch noch nicht ganz durchgestiegen...

Edit:
Oben schreibst du ja sogar:
Dec 12 01:00:57 pve kernel: NETDEV WATCHDOG: enp1s0 (r8169): transmit queue 0 timed out

Dort sieht man ja, dass der betroffene Treiber (r8169) von deinem Interface genutzt wird -> Realtek

Bin mir also zu 100% sicher, dass wir dasselbe Problem (wie viele andere auch mit einer Realtek Netzwerkkarte) haben.

Würde dir auch mal ein Update auf Proxmox 8.1 empfehlen, bei mir hat sich die Situation mit dem r8169 gebessert - ist allerdings noch nicht komplett gefixt. Siehe dazu auch meinen Post hier.

Ansonsten kannst du, solange du auf der 8.0 bist auch den Fix den ich oben gelinkt hatte (https://gist.github.com/SQLJames/fe6fcd5e819d864986ce2eff6ad350da) befolgen. Du musst aber beachten, dass du dann nicht mehr auf dein System kommst, sobald du auf Proxmox 8.1 updatest. Vor dem Update also die Blacklist rückgängig machen oder die 8.1 mit dem alten Kernel booten. Wenn du nicht weißt was du tust, ist das nicht ganz so trivial.
 
Last edited:
  • Like
Reactions: mr-merkut
@enderep12 vielen Dank für die ausführliche Erklärung.
Das mit dem Update mache ich, muss mich da erstmal reinlesen, ist alles neu für mich.
Ich gebe hier dann ein Update.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!