Proxmox regelmäßig nicht erreichbar

Mein Server steht im hintersten Winkel der Besenkammer. Ich muss aus dem Weg räumen um dran zu kommen:
* Staubsauger
* Wäschekörbe
* Leiter
und dabei die Katze nicht in die Kammer lassen, sonst kriegen wir sie nicht mehr raus! Da ist KVM komfortabler :cool: Danke für den Tipp!

Back to topic:
Es geht um die Proxmox VMs. Alle anderen Geräte im Netzwerk bleiben erreichbar.

Auf den mittlererweile drei VMs laufen Nextcloud, Matomo, ein Reverse Proxy (über Internet erreichbar) und ein SAMBE Fileserver
Als LXC laufen: PiHole, Plex, HedgeDoc, Vaultwarden, M/Monit.

Der Server hat fast nie nennenswert Last (16 Kerne). Der einzige Peak, den ich heute hatte war nach dem Hochfahren, das ist aber ja klar, da werden alle VMs gestartet. Ich habe keine Job die monatlich laufen. Auch die VMs/LXCs hatten keinerlei Peaks vor dem Crash.

Die Überwachung mit M/Monit meldet übrigens genauso wenig den Ausfall wie das Syslog.
 
Ich empfehle JetKVM für solche Situationen. Es hört sich für mich aber danach an, als ob es ein reines Netzwerkproblem ist. Ich hatte mit diversen Netzwerkkarten (auch Intel I226) teilweise Einfrier-Probleme, wenn ASPM aktiv war. In vielen BIOSen lässt sich das abschalten, das würde ich mal versuchen.
 
Es geht um die Proxmox VMs. Alle anderen Geräte im Netzwerk bleiben erreichbar.
OK es betrifft also "nur" den Promox Host.
  • Abschalten und aktivieren des Ports im managed Switch hilft genauso wenig wie ein neustart des Ports
  • Neustart der Fritte hilft auch nichts
  • Neustart des betroffenen PCs auch nicht, es sind auch alle Endgeräte betroffen.
Ich glaube auch nicht daran das es ein Hardware-Problem gibt und auch nicht daran das da ggf. das bekannte Intel NIC Problem mit den unregelmäßigen Abbrüchen der LAN-Verbindung zum tragen kommt, denn wenn es daran liegen würde würde das alle paar Tage und nicht erst nach 2 - 3 Monaten Betrieb auftauchen.

Ich kann Dir leider auch sagen was jetzt bei Dir genau das Problem ist, aber meine Vermutung geht halt - wie bereits erwähnt - in Richtung Software-Problem. Sprich irgendeine Software die unter Proxmox oder im LAN läuft killt - warum auch immer - alle paar Monate die Verbindung zu dem Proxmox Host und/oder bringt den zum "hängen/abstürzen".

Ein Problem zu finden das nur alle 2 - 3 Monate mal auftritt ist natürlich ziemlich mühsam, aber wenn irgendwelche Logs und Protokolle nichts hergeben dann bleibt halt nur das Ausschlussverfahren, was sich dann - in dem Fall - natürlich über Monate hinziehen kann/dürfte. Ob Du dann ein Ausschlussverfahren, sprich die verschiedenen auf dem Proxmox Host laufenden VM und LXC temporär und Zug um Zug für den Zeitraum X deaktvieren bzw. nicht laufen lassen, bei Dir im Realbetrieb durchspielen/-testen kannst, ist dann natürlich die Frage.

VG JIm
 
OK es betrifft also "nur" den Promox Host.
Nein. Alle anderen Geräte im Netz sind erreichbar. Er schrieb eingangs:
Ich habe etwa alle ein bis zwei Monate das Problem, dass nichts mehr geht, weder die Oberfläche von Proxmox noch die VMs sind erreichbar, weder per IP noch per Domain. Die VMs werden im Router noch als aktiv angezeigt, verschwinden aber nach und nach. DAs Netzwerkproblem liegt natürlich einerseits daran, dass der PiHole weg ist. Ich habe dann auch kein Internet mehr. Aber das ist nicht die Ursache des Problems.
Deswegen mein Hinweis auf ASPM. Hatte ich wie gesagt, auf mehreren Geräten. Die Netzwerkkarte schläft ein und kommt nicht wieder hoch. Das passiert wohl nur bei Inaktivität, was zufällig beim einem Proxmox mit mehreren VMs natürlich entsprechend selten auftritt.
 
Last edited:
Wieso "Nein"? :D Es betrifft nur den Proxmox Host und genau das habe ich doch geschrieben. Zwischendurch hat @Miraculix_de den Plural verwendet und von Hosts geschrieben. Tatsächlich meinte er aber die Gäste auf dem Proxmox Host. Daher hatte ich ja in #19 nachgefragt um zu klären was genau er jetzt mit Hosts meint.

Was ASPM betrifft: Warum sollte das ASPM, wenn es aktiv ist, dann nur alle 2 - 3 Monate zu einem Problem führen? Das Power-Management für PCI-Express Geräte würde, wenn es aktiv ist, ja fortlaufend aktiv sein und dann vermutlich häufiger zu einem Problem führen und nicht nur alle 2 - 3 Monate. Aber ok ASPM auch mal (testweise) zu deaktivieren kann man natürlich auch mal durchspielen. :)

VG Jim
 
Last edited:
Du hast es falsch gelesen, glaube ich. Er schrieb:

Back to topic:
Es geht um die Proxmox VMs. Alle anderen Geräte im Netzwerk bleiben erreichbar.

Oben hat er es aber anders geschrieben, nämlich dass auch die Oberfläche des Proxmox (Hosts) nicht erreichbar ist, wie ich schon zitierte. Wenn das nicht so wäre, würden alle Aussagen, die sich auf das Auräumen der besenkammer beziehen, keinen Sinn ergeben, denn dann müsste er ja nur den Proxmox Host oder die VMs über das Netz neu starten.

Aber vielleicht kann der OP das ja klarstellen.

Und das ASPM Problem hatte ich (und andere) konkret schon in genau dieser Ausprägung, u.a. auf einem Minisforum MS-01. Gefunden hat das Problem Jim von Jim's Garage. Ich wäre nie auf den Gedanken gekommen, an dieser obkcuren Stelle im BIOS zu suchen - zudem der Minisforum ein Nicht-Standard-BIOS hat.
 
Last edited:
Ich habe es so verstanden das er weder die Proxmox Gäste, noch den Proxmox Host im LAN erreichen kann und das andere Geräte im LAN (PC, Notebook, Drucker oder was auch immer) nicht davon betroffen sind. Letzteres würde halt dafür sprechen das die verwendete FB und der Zyxel Switch eher nicht als Ursache in Frage kommen.

BTW Besenkammer und "Gerümpel": @Miraculix_de Ganz profan: Das LAN-Kabel zu der Proxmox Kiste und/oder falls genutzt eine Netzwerkdose über die die Proxmox Kiste in der Besenkammer angeschlossen ist, fällt als mögliche Ursache aus? Nicht das da alle 2 - 3 Monate mal wer in der Besenkammer kramt und dabei ggf. die LAN-Verbindung (Kabel, Dose) irgendwie "beeinträchtigt" wird. :D

Von einem ASPM Problem das nur alle paar Monate mal auftritt hatte ich bisher noch nichts gehört. Aber ok es gibt wohl nichts was es nicht auch geben kann. :D

VG Jim
 
Last edited:
Ich möchte das nochmal klar stellen. Sorry für die widersprüchliche Ausdrucksweise. Betroffen sind
  • PVE (GUI, SSH) - Ports scheinen aber offen zu sein, man kommt aber nicht drauf
  • Alle VMs
  • Alle LXC Container
Nicht betroffen sind:
  • FritzBox 7590
  • Zyxel XMP1915 (neuste Firmware 4.80)
  • alle anderen Geräte im Netzwerk, die nicht virtualisiert sind.
Die Kabel kann ich natürlich mal testen, mache ich gleich heute abend. Allerdings ist die Verbindung 2x2.5G (LACP Bonding) über Onboard Ethernet + Steckkarte). Wenn auch nur eine einzige Ader einen Wackler hat, dann schafft der kein 2.5G mehr geschweige denn 1G. Dann wird zurückgefallen auf 100M. Und die Leitungen sind eben doppelt vorhanden. Bei Kabelschäden hätte man ggfs. etwas Paketverlust hier und da (Fehlerkorrektur). aber doch keine Totalausfälle aller VMs.

Es sind Wanddosen.

ASMP werde ich mal in der Doku des BIOS suchen, bevor ich den ganzen Server umziehe...
 
Last edited:
aber doch keine Totalausfälle aller VMs.
Wieso denn nicht. :) Das ist ja auch kein "Totalausfall", sondern Du kannst die VM/LXC vermutlich einfach nicht mehr im LAN erreichen. Wenn z.B. die LAN-Verbindung zu der Proxmox Kiste weg ist sind natürlich auch alle Verbindungen zu den darauf laufenden VM und LXC weg. Aber um das dann zu testen reicht ja schon ein einfacher Ping auf die Proxmox Kiste und deren VM/LXC.

Das mit dem LAN-Kabel oder der -Dose hat sich bei der Besenkammer halt angeboten, :D eben weil das Problem ja scheinbar nur alle 2 - 3 Monate mal vorkommt und andere Clients im LAN dann ja kein Problem haben. Bei so einem Zeitabstand glaube ich halt nicht - wie bereits geschrieben - an irgendeinen Hardware-Defekt bei der Proxmox Kiste und auch nicht an irgendein BIOS-Problem. So etwas sollte dann alle paar Tage und nicht alle paar Monate auftreten. Wenn man ein Hardware-Problem (Kabel, Dose, Hardware der Proxmox Kiste) dann ausschließen kann bleibt nur noch ein Software-Problem über, was dann dafür sorgt das sich die Kiste alle 2 - 3 Monaten (kompl.) weghängt. Um das zu finden musst Du entweder "im Nebel stochern", oder halt nach dem von mir erwähnten Ausschlussprinzip vorgehen.

VG Jim
 
  • Like
Reactions: Johannes S
Ich möchte das nochmal klar stellen. Sorry für die widersprüchliche Ausdrucksweise. Betroffen sind
  • PVE (GUI, SSH) - Ports scheinen aber offen zu sein, man kommt aber nicht drauf
  • Alle VMs
  • Alle LXC Container
Nicht betroffen sind:
  • FritzBox 7590
  • Zyxel XMP1915 (neuste Firmware 4.80)
  • alle anderen Geräte im Netzwerk, die nicht virtualisiert sind.
Die Kabel kann ich natürlich mal testen, mache ich gleich heute abend. Allerdings ist die Verbindung 2x2.5G (LACP Bonding) über Onboard Ethernet + Steckkarte). Wenn auch nur eine einzige Ader einen Wackler hat, dann schafft der kein 2.5G mehr geschweige denn 1G. Dann wird zurückgefallen auf 100M. Und die Leitungen sind eben doppelt vorhanden. Bei Kabelschäden hätte man ggfs. etwas Paketverlust hier und da (Fehlerkorrektur). aber doch keine Totalausfälle aller VMs.

Es sind Wanddosen.

ASMP werde ich mal in der Doku des BIOS suchen, bevor ich den ganzen Server umziehe...
Klar kann man Netzwerkstecker soweit "rausziehen", dass es zu Problemen führt. Putzfrauen können es beim Saugen unter Schreibtischen auch ganz gut. Aber sowas würde ich immer ganz weit nach hinten stellen. Liegt dann an mechanisch beschissenen Buchsen/Steckern.
Da sind wir wieder bei einer IP-KVM oder du ziehst für kurze Zeit wirklich mal das Netzwerkkabel des PVE-Hosts. Sollte das Ding nach Reconnect wieder erreichbar sein, hat der PVE definitiv ein Netztreiberproblem.
 
@Miraculix_de: Eventuell könntest Du zusätzlich auch das LACP als mögliche Fehlerursache ausschließen. Performancetechnisch bringt das eh nicht so viel, wie manche glauben, weil eine einzelne TCP-Verbindung immer nur über einen Link läuft. Wenn man also nicht gerade sehr viele Clients hat, ist das fast wirkungslos - es kann aber, je nach Implementierungsgüte im Switch, auch mal Probleme machen. Und was die erhöhte Ausfallsicherheit als potentielles Entwicklungsziel für LACP angeht, siehst Du ja unmittelbar, dass es offenbar nicht erreicht wird.

Ich teile deswegen eher die VLANs über die NICs auf.
 
@Miraculix_de: Eventuell könntest Du zusätzlich auch das LACP als mögliche Fehlerursache ausschließen. Performancetechnisch bringt das eh nicht so viel, wie manche glauben, weil eine einzelne TCP-Verbindung immer nur über einen Link läuft. Wenn man also nicht gerade sehr viele Clients hat, ist das fast wirkungslos - es kann aber, je nach Implementierungsgüte im Switch, auch mal Probleme machen. Und was die erhöhte Ausfallsicherheit als potentielles Entwicklungsziel für LACP angeht, siehst Du ja unmittelbar, dass es offenbar nicht erreicht wird.

Ich teile deswegen eher die VLANs über die NICs auf.
LACP als Fehlerquelle geisterte mir auch durch den Kopf. Das sorgt eben eher für schnelleren Datentransfer als Redundanz.
Komplexer und damit potentiell fehlerträchtig ist es auf alle Fälle.
 
Ich empfehle JetKVM für solche Situationen. Es hört sich für mich aber danach an, als ob es ein reines Netzwerkproblem ist. Ich hatte mit diversen Netzwerkkarten (auch Intel I226) teilweise Einfrier-Probleme, wenn ASPM aktiv war. In vielen BIOSen lässt sich das abschalten, das würde ich mal versuchen.
Hast du einen Link auf JetKVM?
 
Watt? Die fehlen nicht, die haben sie tatsächlich erreicht, anstelle der angepeilten Mindestsumme von 42.000$ für das Zustandekommen der Fertigung.

Die Auslieferungen laufen (ich habe meine schon) und man kann immer noch rewards über Kickstarter bekommen, weil der ursprünglich angedachte Vertrieb über Amazon ca. 30% Aufschlag erzeugen würde. Deshalb planen sie jetzt stattdessen den Direktvertrieb.

Kann aber sein, dass es dann trotzdem teurer wird als jetzt über Kickstarter. War bei den Ugreen NAS auch so, die Dinger haben per Kickstarter ungefähr die Hälfte des jetzigen Preises gekostet. Andere (unsicherere) externe KVM-Lösungen kosten i.j.F. mehr.
 
Last edited:
Watt? Die fehlen nicht, die haben sie tatsächlich erreicht, anstelle der angepeilten Mindestsumme von 42.000$ für das Zustandekommen der Fertigung.

Die Auslieferungen laufen (ich habe meine schon) und man kann immer noch rewards über Kickstarter bekommen, weil der ursprünglich angebachte Vertrieb über Amazon ca. 30% Aufschlag erzeugen würde. Deshalb planen sie jetzt stattdessen den Direktvertrieb.

Kann aber sein, dass es dann trotzdem teurer wird als jetzt über Kickstarter. War bei den Ugreen NAS auch so, die Dinger haben per Kickstarter ungefähr die Hälfte des jetzigen Preises gekostet. Andere (unsicherere) externe KVM-Lösungen kosten i.j.F. mehr.
Gut. Die Website ist aber alles andere als ideal. Würde mich aber sehr freuen, wenn da trotzdem was vernünftiges herauskommt. Ich bin gespannt. Ob der pornösen Preise der etablierten Hersteller, sah ich mich bisher genötigt solche Gadgets selbst zusammenzulöten.
Kannst du denn schon etwas über die Funktionalität berichten?
20€ mehr durch die Amazonkrake finde ich absolut akzeptabel. Als Hersteller nervt es natürlich, aber deshalb kann man ja auch parallel direkt vertreiben. Faule Ratten wie ich, gucken bei dem Preis halt eher auf Amazon, als auf einen Direktshop zu warten.
Ich werde es auf alle Fälle im Auge behalten.