Proxmox regelmäßig nicht erreichbar

Miraculix_de

Member
Nov 12, 2023
50
6
8
Hallo,
ich arbeite beruflich als Linux Admin, bin also "vom Fach". Ich habe einen privaten Proxmox-Server der aktuellen Version auf ziemlich neuer Hardware. Auf der alten Hardware (HP Microserver Gen 8) lief das Setup komplett ohne Probleme. Auf der neuen Hardware hakt es aber massiv. Deswegen habe ich auch noch keine Lizenz erworben, was ich aber eigentlich vor habe.
  • Gigabyte B550I Aorus Pro AX ITX Motherboard
  • AMD Ryzen 7 5700G 16 Kernen 65 W TDP mit boxed Kühler
  • 32 G ECC RAM
  • 2 Platten 16 + 8 TB), die größere ist Storage für PBS.
  • 500G NVME SSD
  • 2.5G Ethernet-Karte (zusätzlich zum Motherboard)
  • USV von CyberPower
  • SilverStone SST-ST30SF V2.0 300W Netzteil
  • Fractal Design Node 304
Darauf laufen 2 VMs, 5 LXC-Container, u.A. PiHole, Nextcloud, Hedgedoc, Bitwarden, SMB Fileserver, Plex. Alles Linux.

Die beiden Netzwerkkarten sind gebondet, LACP, ein entsprechender 2.5G Switch von Zyxel ist angeschlosen und die beiden Ports haben Link Aggregation aktiviert.

Ich habe etwa alle ein bis zwei Monate das Problem, dass nichts mehr geht, weder die Oberfläche von Proxmox noch die VMs sind erreichbar, weder per IP noch per Domain. Die VMs werden im Router noch als aktiv angezeigt, verschwinden aber nach und nach. DAs Netzwerkproblem liegt natürlich einerseits daran, dass der PiHole weg ist. Ich habe dann auch kein Internet mehr. Aber das ist nicht die Ursache des Problems.

Das einzige was ich machen ikann ist ein Kaltstart (4s Power drücken). Das ist natürlich nicht so gut. Ich lasse danach auch immer fsck laufen, in Proxmox und in den VMs. (Offtopic, wie prüft man die Dateisysteme der VMs/Container im Thin Pool aus PVE heraus?)

Habt ihr Vorschläge, woran das liegen kann und wie ich das Problem eingrenzen kann? Der letzte Fall war gestern.
Die Logs enthalten natürlich extrem viele Fehler und es ist sehr schwer, die letztendlich ursächlichen Fehler zu finden.
 
Last edited:
Nein, Netzteil SilverStone SST-ST30SF V2.0, Gehäuse das Node 304 von Fractal Design. Laut Netzteilrechner.com komme ich auf einen Verbraucht von knapp 200W + 100W Puffer.

Sorry, hate zuerst ein anderes Netzteil genannt, das für einen anderen Rechner war.

 
Last edited:
"ich arbeite beruflich als Linux Admin" und warum nutzt man Proxmox VE etwas professioneller?

Als PBS eine LXC oder VM mit nur einer HDD?

Und generell läuft das gesamte Proxmox VE nur auf einem Datenträger, mit Jeweils 2x HDDs?

Warum?
Ich habe zwei HDDs, bitte genau lesen. Weil sich ein RAID m.E. im privaten Einsatz nicht lohnt, durch die Stromkosten. Und da Backups auf einer getrennten Plate sind, ist das Risiko, das beide Disks (Daten und Backup) gleichzeitig ausfallen vernachlässigbar. Klar, bei NVME könnte man über RAID wieder nachdenken. Die wichtigsten Daten.

Aber allgemein ist mir sparsamer Betrieb wichtiger als 100% Ausfallsicherheit. Die erreicht man im privaten Umfeld eh nie weil das Internet ja nicht immer stabil läuft.
 
Last edited:
Kühler ist der boxed Kühler, das Gehäuse hat insgesamt 3 eingebaute Kühler, zwei vorn, einer hinten, kann eigentlich nicht sein, dass da was überhitzt, zumal kaum Last da ist.

Der RAM ist ECC und weniger als ein Jahr alt, aber ja, könnte ich mal machen.

DAs Netzteil hat selbst bei maximaler Ausnutzung der TDP noch 100W Luft, HDDs, und der Rest sind schon einkalkuliert. Also zu schwach kann es eigentlich nicht sein.
 
Last edited:
  • Like
Reactions: news
Das einzige was ich machen ikann ist ein Kaltstart (4s Power drücken).
Was steht auf der Konsole - oder ist da kein Monitor mit Tastatur angeschlossen?
Hast schon mal eines der beiden Netzwerkkabel abgezogen und nur mit einem getestet?
Was sagt das Systemlog?
BIOS/UEFI Einstellungen für den Ryzen geprüft?
Gibt es ein Update für das Board?
Alle zwei Monate ist ja schon ein langer Zeitraum - ab und zu schon mal zwischen den Zeiten mal "gemonitored" od das etwas aus dem Ruder läuft (Speicher)?
 
  • Like
Reactions: news
Nein, ist kein Monitor dran - das Ding steht in der Besenkammer. Ist immer ein Akt, das da rauszuholen.

Das Monitoring meldet keine Fehler, das heißt die Systeme sind schneller weg als das Monitoring reagieren kann oder das System wird plötzlich vom Netzwerk getrennt. Deswegen weiß ich leider auch nicht in welchem Zeitraum ich in den Logs schauen muss.

Ich habe mehrere Stunden der Logs im fraglichen Zeitraum durchgelesen, dort steht nichts kritisches, das kritischste ist ein gescheiterter certbot Aufruf. Durch den reboot gibt es natürlich viele Einträge. Das spricht für ein plötzliches Einfrieren des Systems.

Es gibt ein neueres BIOS, die BEschreibung klingt aber nicht so relevant;
  1. Checksum : 5ED7
  2. Update AMD AGESA V2 1.2.0.E for fix AMD CPU microcode signature verification vulnerability (CVE-2024-36347)
Ohne MKonitor ist das leider nicht zu machen, wenn wieder was is, mache ich das Update mal. Das Paket amd64-microcode ist installiert

Ich werde jetzt mal nur ein Netzwerk-Kabel stecken, das vom Motherboard.

C-States: Der Energiesparmodus kann eigentlich nicht die Ursache sein, die Lüfter drehten ja.
 
Last edited:
C-States haben überhaupt nichts mit den Lüftern zu tun.
Das ist die Technik, womit die CPU runtertakten kann um Strom zu sparen. Das kann zu schleichenden Fehlern führen, genauso wie Voll laufender RAM durch ZFS oder ähnliches.
 
  • Like
Reactions: MaxMan
Nein, ist kein Monitor dran - das Ding steht in der Besenkammer. Ist immer ein Akt, das da rauszuholen.

Das Monitoring meldet keine Fehler, das heißt die Systeme sind schneller weg als das Monitoring reagieren kann oder das System wird plötzlich vom Netzwerk getrennt. Deswegen weiß ich leider auch nicht in welchem Zeitraum ich in den Logs schauen muss.

Ich habe mehrere Stunden der Logs im fraglichen Zeitraum durchgelesen, dort steht nichts kritisches, das kritischste ist ein gescheiterter certbot Aufruf. Durch den reboot gibt es natürlich viele Einträge. Das spricht für ein plötzliches Einfrieren des Systems.

Es gibt ein neueres BIOS, die BEschreibung klingt aber nicht so relevant;
  1. Checksum : 5ED7
  2. Update AMD AGESA V2 1.2.0.E for fix AMD CPU microcode signature verification vulnerability (CVE-2024-36347)
Ohne MKonitor ist das leider nicht zu machen, wenn wieder was is, mache ich das Update mal. Das Paket amd64-microcode ist installiert

Ich werde jetzt mal nur ein Netzwerk-Kabel stecken, das vom Motherboard.

C-States: Der Energiesparmodus kann eigentlich nicht die Ursache sein, die Lüfter drehten ja.
Würde ein uptime Kuma installieren mit Benachrichtigung per Telegramm. Dann hast du Zeit nahe Info. Ping zum LAN Switch / Router / ISP DNS . " Meine Gedanke zu dem Problem"
 
Ok, die C-States sind aber schon sinnvoll, sonst läuft die CPU ja ständig unter Volllast, was bei einem Heimserver halt eher selten nötig ist. Uptime Kuma ist eine gute Idee, das werde ich machen, Danke!. Hoffe das Problem tritt jetzt einfach nicht mehr auf, vielleicht lag es ja wirklich am Bonding zweier unterschiedlicher Netzwerkchips.
 
Ok, danke für die Info, ich werden jetzt erstmal das BIOS Update durchführen, das geht auch mit Q-Flash Plus ohne Bildschirm.
 
Hallo,
heute nach 70 Tagen der nächste Crash. Nach dem letzten Crash hatte ich das BIOS des Systems aktualisiert. Ich hatte Zeit, die Symptome genauer zu untersuchen:

  • Ports sind offen, die Applikation hat aber Probleme, einloggen nicht möglich

Code:
nc -zv 192.168.170.10 22
Connection to 192.168.170.10 22 port [tcp/ssh] succeeded!
ssh user@192.168.170.10
kex_exchange_identification: read: Connection reset by peer
Connection reset by 192.168.170.10 port 22

Ähnliches gilt auch für Port 8006.

  • In der FritzBox Netzwerkübersicht verschwinden nach und nach alle Hosts
  • Abschalten und aktivieren des Ports im managed Switch hilft genauso wenig wie ein neustart des Ports
  • Neustart der Fritte hilft auch nichts
  • Neustart des betroffenen PCs auch nicht, es sind auch alle Endgeräte betroffen.
  • Im Syslog des Systems (nach dem Reboot) steht in den Stunden vor dem Crash rein garnichts, ich kann den Crash zeitlich genau eingrenzen
Was könnte das sein?
 
Wechsel bitte mal den DDR4 Speicher, 32 G ECC RAM wird gar nicht von der CPU unterstützt.
Dann würde ich alle Komponenten auf dem Mainbooard, wie RGB usw. Abschalten.
Keine Übertakten und auch den DDR4 Ram-Takt auf 3200 MT/s stellen.
Hat der Server eine online USV erhalten - nein also wechseln und ist das Netzteil evtl. nicht mehr gut; also raus damit.
Wlan abschalten..
Alles konservativ einstellen, Clear CMOS..
 
Habe inzwischen eine andere CPU: AMD Ryzen 7 PRO 5755G, der unterstützt ECC.
RGB habe ich nicht, das ist ein Server :-)
USV ist vorhanden. Dass das Netzteil nicht mehr gut ist, glaube ich nicht, das ist weniger als 1 Jahr alt und die Crashes kommen nicht bei besonders hoher Last.
WLAN und Audio sind abgeschaltet.

Was meinst du sonst noch mit konservativ?
 
Vermutlich meint er: BIOS (optimized) defauls und dann nur noch die Hardware abschalten, die nicht gebraucht wird. Aber keine Änderungen an den CPU oder RAM Einstellungen.

Hast du mal den Hinweis zum Netzwerk getestet - Kabel gezogen oder das Switch neu gestartet?
 
Hast du mal den Hinweis zum Netzwerk getestet - Kabel gezogen oder das Switch neu gestartet?
Ja, beides hilft nicht. Das Netzwerk an sich geht ja auch noch, der Port ist offen. Aber andererseits verschwinden die Hosts nach und nach in der FritzBox. Liegt vermutlich daran, dass auf Ping o.ä. nicht mehr reagiert wird.
 
In der FritzBox Netzwerkübersicht verschwinden nach und nach alle Hosts
...


es sind auch alle Endgeräte betroffen.
...

Aber andererseits verschwinden die Hosts nach und nach in der FritzBox.
Nur mal zur Klarstellung. Geht es jetzt nur um den Proxmox Host, sprich die Proxmox Kiste, oder was ist mit allen Hosts und alle Endgeräte gemeint? Weil die auf der Proxmox Kiste laufenden VM und LXC sind ja keine Hosts sondern Gäste.

Wenn es nicht nur den Proxmox Host betrifft dürfte es sich ja vermutlich primär um irgendein Netzwerk-Problem handeln, sprich bei der FB, den Switch, oder ggf. auch noch irgendeine Software (PiHole, Firewall oder was auch immer) die da im LAN ggf. ihr Unwesen treibt.

Das das Problem immer mal wieder (erst) nach 2 - 3 Monaten Laufzeit auftritt sieht für mich zumindest so aus das das nicht an irgendeiner evtl. defekten Hardware, irgendwelchen BIOS Einstellungen, oder irgendwelchen Last-/Temperatur-Problemen liegt. Wenn es nur den Proxmox Host betreffen sollte sieht es für mich so aus das irgendeine darauf laufende Software, bei irgendeiner bestimmten Aktion oder Aufgabe, die Kiste abschließt. Was und warum auch immer. BTW: Was läuft eigentlich in den beiden VM?

VG Jim
 
Ich will mit ein KVM-over-IP-Kit besorgen. Damit sind dann BIOS Einstellungen viel einfacher zu machen.
Am günstigsten ist natürlich ein Hocker in der besagten Besenkammer.
IP-KVM hilft natürlich auch immens, um Netzwerkprobleme einzelner Maschinen bequem zu analysieren.
Für schlappe 100€ gibt es z.B. folgendes:
https://www.amazon.de/dp/B0F21SQ4S8
Soll keinesfalls Werbung sein und probiert habe ich es auch noch nicht (allerdings bestellt).
 
Last edited:
  • Like
Reactions: news