Proxmox regelmäßig nicht erreichbar

Miraculix_de

Member
Nov 12, 2023
32
2
8
Hallo,
ich arbeite beruflich als Linux Admin, bin also "vom Fach". Ich habe einen privaten Proxmox-Server der aktuellen Version auf ziemlich neuer Hardware. Auf der alten Hardware (HP Microserver Gen 8) lief das Setup komplett ohne Probleme. Auf der neuen Hardware hakt es aber massiv. Deswegen habe ich auch noch keine Lizenz erworben, was ich aber eigentlich vor habe.
  • Gigabyte B550I Aorus Pro AX ITX Motherboard
  • AMD Ryzen 7 5700G 16 Kernen 65 W TDP mit boxed Kühler
  • 32 G ECC RAM
  • 2 Platten 16 + 8 TB), die größere ist Storage für PBS.
  • 500G NVME SSD
  • 2.5G Ethernet-Karte (zusätzlich zum Motherboard)
  • USV von CyberPower
  • SilverStone SST-ST30SF V2.0 300W Netzteil
  • Fractal Design Node 304
Darauf laufen 2 VMs, 5 LXC-Container, u.A. PiHole, Nextcloud, Hedgedoc, Bitwarden, SMB Fileserver, Plex. Alles Linux.

Die beiden Netzwerkkarten sind gebondet, LACP, ein entsprechender 2.5G Switch von Zyxel ist angeschlosen und die beiden Ports haben Link Aggregation aktiviert.

Ich habe etwa alle ein bis zwei Monate das Problem, dass nichts mehr geht, weder die Oberfläche von Proxmox noch die VMs sind erreichbar, weder per IP noch per Domain. Die VMs werden im Router noch als aktiv angezeigt, verschwinden aber nach und nach. DAs Netzwerkproblem liegt natürlich einerseits daran, dass der PiHole weg ist. Ich habe dann auch kein Internet mehr. Aber das ist nicht die Ursache des Problems.

Das einzige was ich machen ikann ist ein Kaltstart (4s Power drücken). Das ist natürlich nicht so gut. Ich lasse danach auch immer fsck laufen, in Proxmox und in den VMs. (Offtopic, wie prüft man die Dateisysteme der VMs/Container im Thin Pool aus PVE heraus?)

Habt ihr Vorschläge, woran das liegen kann und wie ich das Problem eingrenzen kann? Der letzte Fall war gestern.
Die Logs enthalten natürlich extrem viele Fehler und es ist sehr schwer, die letztendlich ursächlichen Fehler zu finden.
 
Last edited:
Also wird der Rechner nur mit Muskelpower betrieben und liegt offfen rum?

Geht es etwas genauer mit der Beschreibung?

CPU, Kühler, Gehäuse usw.
 
Nein, Netzteil SilverStone SST-ST30SF V2.0, Gehäuse das Node 304 von Fractal Design. Laut Netzteilrechner.com komme ich auf einen Verbraucht von knapp 200W + 100W Puffer.

Sorry, hate zuerst ein anderes Netzteil genannt, das für einen anderen Rechner war.

 
Last edited:
"ich arbeite beruflich als Linux Admin" und warum nutzt man Proxmox VE etwas professioneller?

Als PBS eine LXC oder VM mit nur einer HDD?

Und generell läuft das gesamte Proxmox VE nur auf einem Datenträger, mit Jeweils 2x HDDs?

Warum?
 
Wie geschrieben - ich denke an CPU locks und/ oder Probleme mit der Kühlung der CPU.

Was wird da benutzt?

Schon mal Prime95 1h laufen lassen und die Temperaturen und die Leistungsaufnahme überwacht?
Evtl. auch mal einen DDR4 Ramtest 1 Tag laufen lassen.
 
Last edited:
"ich arbeite beruflich als Linux Admin" und warum nutzt man Proxmox VE etwas professioneller?

Als PBS eine LXC oder VM mit nur einer HDD?

Und generell läuft das gesamte Proxmox VE nur auf einem Datenträger, mit Jeweils 2x HDDs?

Warum?
Ich habe zwei HDDs, bitte genau lesen. Weil sich ein RAID m.E. im privaten Einsatz nicht lohnt, durch die Stromkosten. Und da Backups auf einer getrennten Plate sind, ist das Risiko, das beide Disks (Daten und Backup) gleichzeitig ausfallen vernachlässigbar. Klar, bei NVME könnte man über RAID wieder nachdenken. Die wichtigsten Daten.

Aber allgemein ist mir sparsamer Betrieb wichtiger als 100% Ausfallsicherheit. Die erreicht man im privaten Umfeld eh nie weil das Internet ja nicht immer stabil läuft.
 
Last edited:
Kühler ist der boxed Kühler, das Gehäuse hat insgesamt 3 eingebaute Kühler, zwei vorn, einer hinten, kann eigentlich nicht sein, dass da was überhitzt, zumal kaum Last da ist.

Der RAM ist ECC und weniger als ein Jahr alt, aber ja, könnte ich mal machen.

DAs Netzteil hat selbst bei maximaler Ausnutzung der TDP noch 100W Luft, HDDs, und der Rest sind schon einkalkuliert. Also zu schwach kann es eigentlich nicht sein.
 
Last edited:
  • Like
Reactions: news
Das einzige was ich machen ikann ist ein Kaltstart (4s Power drücken).
Was steht auf der Konsole - oder ist da kein Monitor mit Tastatur angeschlossen?
Hast schon mal eines der beiden Netzwerkkabel abgezogen und nur mit einem getestet?
Was sagt das Systemlog?
BIOS/UEFI Einstellungen für den Ryzen geprüft?
Gibt es ein Update für das Board?
Alle zwei Monate ist ja schon ein langer Zeitraum - ab und zu schon mal zwischen den Zeiten mal "gemonitored" od das etwas aus dem Ruder läuft (Speicher)?
 
  • Like
Reactions: news
Nein, ist kein Monitor dran - das Ding steht in der Besenkammer. Ist immer ein Akt, das da rauszuholen.

Das Monitoring meldet keine Fehler, das heißt die Systeme sind schneller weg als das Monitoring reagieren kann oder das System wird plötzlich vom Netzwerk getrennt. Deswegen weiß ich leider auch nicht in welchem Zeitraum ich in den Logs schauen muss.

Ich habe mehrere Stunden der Logs im fraglichen Zeitraum durchgelesen, dort steht nichts kritisches, das kritischste ist ein gescheiterter certbot Aufruf. Durch den reboot gibt es natürlich viele Einträge. Das spricht für ein plötzliches Einfrieren des Systems.

Es gibt ein neueres BIOS, die BEschreibung klingt aber nicht so relevant;
  1. Checksum : 5ED7
  2. Update AMD AGESA V2 1.2.0.E for fix AMD CPU microcode signature verification vulnerability (CVE-2024-36347)
Ohne MKonitor ist das leider nicht zu machen, wenn wieder was is, mache ich das Update mal. Das Paket amd64-microcode ist installiert

Ich werde jetzt mal nur ein Netzwerk-Kabel stecken, das vom Motherboard.

C-States: Der Energiesparmodus kann eigentlich nicht die Ursache sein, die Lüfter drehten ja.
 
Last edited:
C-States haben überhaupt nichts mit den Lüftern zu tun.
Das ist die Technik, womit die CPU runtertakten kann um Strom zu sparen. Das kann zu schleichenden Fehlern führen, genauso wie Voll laufender RAM durch ZFS oder ähnliches.
 
  • Like
Reactions: MaxMan
Nein, ist kein Monitor dran - das Ding steht in der Besenkammer. Ist immer ein Akt, das da rauszuholen.

Das Monitoring meldet keine Fehler, das heißt die Systeme sind schneller weg als das Monitoring reagieren kann oder das System wird plötzlich vom Netzwerk getrennt. Deswegen weiß ich leider auch nicht in welchem Zeitraum ich in den Logs schauen muss.

Ich habe mehrere Stunden der Logs im fraglichen Zeitraum durchgelesen, dort steht nichts kritisches, das kritischste ist ein gescheiterter certbot Aufruf. Durch den reboot gibt es natürlich viele Einträge. Das spricht für ein plötzliches Einfrieren des Systems.

Es gibt ein neueres BIOS, die BEschreibung klingt aber nicht so relevant;
  1. Checksum : 5ED7
  2. Update AMD AGESA V2 1.2.0.E for fix AMD CPU microcode signature verification vulnerability (CVE-2024-36347)
Ohne MKonitor ist das leider nicht zu machen, wenn wieder was is, mache ich das Update mal. Das Paket amd64-microcode ist installiert

Ich werde jetzt mal nur ein Netzwerk-Kabel stecken, das vom Motherboard.

C-States: Der Energiesparmodus kann eigentlich nicht die Ursache sein, die Lüfter drehten ja.
Würde ein uptime Kuma installieren mit Benachrichtigung per Telegramm. Dann hast du Zeit nahe Info. Ping zum LAN Switch / Router / ISP DNS . " Meine Gedanke zu dem Problem"
 
Ok, die C-States sind aber schon sinnvoll, sonst läuft die CPU ja ständig unter Volllast, was bei einem Heimserver halt eher selten nötig ist. Uptime Kuma ist eine gute Idee, das werde ich machen, Danke!. Hoffe das Problem tritt jetzt einfach nicht mehr auf, vielleicht lag es ja wirklich am Bonding zweier unterschiedlicher Netzwerkchips.