Ohne Ankündigung "--reboot--"

Stefan_Grubi

Member
Jul 17, 2023
7
7
8
Guten Tag!

Ich habe einen einzelnen node laufen, auf welchen mehrere vm´s mit linux ubuntu laufen.
Seit 4 Tagen habe ich jetzt das Problem, dass ohne Ankündigung einfach ein "reboot" durchgeführt wird. Auf einmal ist alles tot und mein pve1 fährt wieder normal hoch.
Im syslog steht dann bis zum --reboot-- nichts auffälliges, meistens steht drinnen, dass von ufw eine IP geblockt wurde, aber nichts wo auf einen Fehler zeigen würde.
Habe dann erstmal Proxmox und alle vm´s einem update unterzogen und pve1 läuft aktuell mit der Version 8.4.11
Der Server steht im Rechenzentrum, somit habe ich Kontakt mit dem Support aufgenommen. Die haben erstmal ein Biosupdate durchgeführt und angeblich im Bios Werte verändert, welche eine Verbesserung oder Behebung meines Problems bringen sollte.
Keine 14 Stunden später, der Server ist wieder tot und im Log steht nur "--reboot--" drin.
Support wieder angeschrieben mit einem screen aus den logs und dann haben sie die Hardware genauer angeschaut und angeblich einen defekten Lüfter getauscht, da beim testen die Temperatur der CPU zu hoch war.
Server ging wieder online und keine 7 Stunden später war der Server wieder tot - CPU Temperatur lag im Durchschnitt zwischen 55 - 70°C
Habe das Phänomen, dass das System ab und an, einfach einen "--reboot--" macht, schon immer gehabt. Da trat es aber nur alle 7 bis 20 Tage total unregelmäßig auf. Ich hab mir gedacht, aufgrund meiner laienhaften Kenntnisse, wird schon irgendwo was nicht passen. Aber seit dem es extrem geworden ist, was von heute auf morgen passiert ist und NICHTS am Server verändert wurde, ist es verdammt ärgerlich. Zu beginn kam ein "--reboot--" schon alle 30 bis 60 Minuten, also am ersten Tag des Problems gute 20 mal.

Vielleicht kann mir jemand weiterhelfen um heraus zu finden, ob es an Proxmox oder der Hardware liegt?

Für jede Hilfe bin ich sehr dankbar.

Wünsche Euch noch einen schönen Tag.
LG Stefan
 
Hinweise auf den Grund des herunterfahrens sollten sich im Journal finden lassen. "Sollten" weil es immer wieder Fälle gibt, in denen das Journal tatsächlich nicht weiterhilft. Dennoch ist es die erste Anlaufstelle!

man journalctl hilft. Wenn die Kiste jetzt normal läuft und der vorherige Neustart eine Überraschung war: journalctl -b -1 -e

"-b" = zeige seit boot "-1" = dem vorherigen; "-e" zeige das Ende, nicht den Anfang.
 
Das ist ein screen von gestern Abend, als die selbe Situation erneut aufgetreten ist.

journalctl -b -2 -e -2, weil ich nach dem unerwarteten --reboot-- noch einen händischen reboot ausgelöst habe.
 

Attachments

  • logs01.jpg
    logs01.jpg
    222.1 KB · Views: 19
Last edited:
Nun, diese Zeilen sind (offensichtlich?) nicht hilfreich. Wenn das die letzten Zeilen vor dem Reboot sind, wurde dieser brutal und ohne Ansage (per "Reset") ausgelöst. Das würde dann auf einen Hardwareschaden deuten; es gibt viele potentielle Ursachen, beispielsweise das Netzteil.

Ich würde mal a) "memtest86+" über Nacht laufen lassen und b) einen Stresstest mit Hilfe von "stress-ng" machen.
 
Habe das Phänomen, dass das System ab und an, einfach einen "--reboot--" macht, schon immer gehabt. Da trat es aber nur alle 7 bis 20 Tage total unregelmäßig auf. Ich hab mir gedacht, aufgrund meiner laienhaften Kenntnisse, wird schon irgendwo was nicht passen
Darf man fragen warum man dann einen PVE in einem RZ betreibt?
 
Da kommt dann auch gleich die Frage hinterher, ob das ein Eigener oder gemieteter Server ist.
Vermutlich will er erste einmal sicher gehen, das das ein Hardware Problem ist, bevor er reklamiert und diesen getauscht haben will.
 
Das ist ein screen von gestern Abend, als die selbe Situation erneut aufgetreten ist.

journalctl -b -2 -e -2, weil ich nach dem unerwarteten --reboot-- noch einen händischen reboot ausgelöst habe.
Läuft ein watchdog, der möglicherweise sein regelmäßiges Signal nicht zeitnah genut bekommt?

Wenn keine Meldungen zum Neustart auf der Festplatte stehen, gibt es manchmal Meldungen per serielle Schnittstelle, die nicht mehr gespeichert werden können.
 
Nun, diese Zeilen sind (offensichtlich?) nicht hilfreich. Wenn das die letzten Zeilen vor dem Reboot sind, wurde dieser brutal und ohne Ansage (per "Reset") ausgelöst. Das würde dann auf einen Hardwareschaden deuten; es gibt viele potentielle Ursachen, beispielsweise das Netzteil.

Ich würde mal a) "memtest86+" über Nacht laufen lassen und b) einen Stresstest mit Hilfe von "stress-ng" machen.
Laut meinen Recherchen, kann man den "memtest86+" ja nur während eines boot Vorgangs durchführen und da habe ich mich noch nicht damit genau beschäftig. Laut Support aus dem Rechenzentrum wurde gestern so ein Test über 1 Stunde durchgeführt und für gut befunden.

Darf man fragen warum man dann einen PVE in einem RZ betreibt?
Der Grund ist ganz einfach, da mein Internet aktuell zu Hause viel zu schlecht ist und deswegen wurde Hardware angemietet. Sobald bei mir Glasfaser verfügbar ist, werde ich das nochmal überdenken und eventuell von zu Hause Hosten.

Da kommt dann auch gleich die Frage hinterher, ob das ein Eigener oder gemieteter Server ist.
Vermutlich will er erste einmal sicher gehen, das das ein Hardware Problem ist, bevor er reklamiert und diesen getauscht haben will.
Es ist gemietete Hardware, da mir der Weg dort hin zu weit wäre :D
Grundsätzlich ist es mir egal wo der Fehler liegt, es muss funktionieren und natürlich frag ich mich ob der Fehler bei mir liegen kann. Auffallend ist nur, dass bis vor vier Tagen alles normal lief und auf einmal dieses Problem los ging und ich NICHTS gemacht habe an den Servern. Mein Verdacht ist es, dass an der Hardware ein Problem liegt und bis jetzt wurde laut Support Wärmeleitpaste und ein neuer Fan an der CPU gemacht.

Läuft ein watchdog, der möglicherweise sein regelmäßiges Signal nicht zeitnah genut bekommt?

Wenn keine Meldungen zum Neustart auf der Festplatte stehen, gibt es manchmal Meldungen per serielle Schnittstelle, die nicht mehr gespeichert werden können.
Sollte von der Installation kein watchdog automatisch installiert worden sein, dann ist dieser nicht vorhanden. Was kann dieser genau und würde es Sinn machen einen zu installieren? Würde der auf dem node laufen?


Danke für Eure Hilfe
 
Last edited:
  • Like
Reactions: ThoSo
Soweit ich weiss läuft der Watchdog auf BIOS-Ebene...

Hast du du keine Möglichkeit selbst zu booten und via Konsole Vollzugriff erhalten?
 
Es ist gemietete Hardware, da mir der Weg dort hin zu weit wäre :D
Grundsätzlich ist es mir egal wo der Fehler liegt, es muss funktionieren und natürlich frag ich mich ob der Fehler bei mir liegen kann. Auffallend ist nur, dass bis vor vier Tagen alles normal lief und auf einmal dieses Problem los ging und ich NICHTS gemacht habe an den Servern. Mein Verdacht ist es, dass an der Hardware ein Problem liegt und bis jetzt wurde laut Support Wärmeleitpaste und ein neuer Fan an der CPU gemacht.
Da bin ich voll bei Dir. Der Rechner kostet im Monat ordentlich Geld, wenn der seitens des Anbieters überwacht wird, läuft da was verkehrt.
Wenn der *nur* da steht und man im Fall eines Fehler mal auf die Suche geht - dann ist das etwas suboptimal.
Ich würde jetzt mal den Vertrag prüfen und die darin stehende Serviceleistung und Verfügbarkeitsgarantien, und den Server tauschen lassen. Wenn das ständig vorkommt - und die Wahrscheinlichkeit das Proxmox eine Kernelpanik schieb, dürfte gering sein.
Wenn das nicht so klappt, auch mal Alternativen ausloten und ByeBye Hoster!

Ist dir die Hardwareausstattung bekannt?
Vielleicht ist da ja etwas auffällig?

Auf jeden Fall würde ich mal anfangen, sukzessive die VM / LXC und vor allem die Daten nach Hause zu transferieren - besser ist das, egal wie dünn die Leitung ist - evtl. via einem Bekannten, der schnellen Zugang zum Internet hat.
Drücke dir die Daumen!
 
Last edited:
Soweit ich weiss läuft der Watchdog auf BIOS-Ebene...

Hast du du keine Möglichkeit selbst zu booten und via Konsole Vollzugriff erhalten?
Ich habe mit journalctl -b -3 -e einen Eintrag gefunden wo folgende Zeilen drin stehen:

systemd[1]: Using hardware watchdog 'Software Watchdog', version 0, device /dev/watchdog0
systemd[1]: Watchdog running with a hardware timeout of 10min.
kernel: watchdog: watchdog0: watchdog did not stop!

Hier wurde ein "reboot" von mir ausgelöst und diese 3 Zeilen stehen in den letzten 10 Zeilen bevor der Server wieder booten beginnt.
Wie schon oben erwähnt, habe ich jedoch bei den unangekündigten reboot´s keinerlei Infos in den logs. Auf einmal steht "reboot" und das System bootet wieder neu.

Nun, diese Zeilen sind (offensichtlich?) nicht hilfreich. Wenn das die letzten Zeilen vor dem Reboot sind, wurde dieser brutal und ohne Ansage (per "Reset") ausgelöst. Das würde dann auf einen Hardwareschaden deuten; es gibt viele potentielle Ursachen, beispielsweise das Netzteil.

Ich würde mal a) "memtest86+" über Nacht laufen lassen und b) einen Stresstest mit Hilfe von "stress-ng" machen.
Ich habe mit stress-ng --all 2 -t 10m / 30m und 60m mehrere Tests durchgeführt, wobei alle keinen reboot ausgelöst haben. Die CPU Temperatur lag meistens um die 92°C im Testzeitraum.

Da bin ich voll bei Dir. Der Rechner kostet im Monat ordentlich Geld, wenn der seitens des Anbieters überwacht wird, läuft da was verkehrt.
Wenn der *nur* da steht und man im Fall eines Fehler mal auf die Suche geht - dann ist das etwas suboptimal.
Ich würde jetzt mal den Vertrag prüfen und die darin stehende Serviceleistung und Verfügbarkeitsgarantien, und den Server tauschen lassen. Wenn das ständig vorkommt - und die Wahrscheinlichkeit das Proxmox eine Kernelpanik schieb, dürfte gering sein.
Wenn das nicht so klappt, auch mal Alternativen ausloten und ByeBye Hoster!

Ist dir die Hardwareausstattung bekannt?
Vielleicht ist da ja etwas auffällig?

Auf jeden Fall würde ich mal anfangen, sukzessive die VM / LXC und vor allem die Daten nach Hause zu transferieren - besser ist das, egal wie dünn die Leitung ist - evtl. via einem Bekannten, der schnellen Zugang zum Internet hat.
Drücke dir die Daumen!
Habe in den letzten 4 Jahren soweit nur gute Erfahrungen gemacht und tollen Support erlebt.
Es läuft ein BackupServer von Proxmox und da sind alle vm´s und lxc´s gesichert, aber die Daten habe ich grundsätzlich zu Hause auch.

--------------------------------------------------------------------
Heute Nacht habe ich den Server erneut laufen lassen mit 4 vm´s, ohne voller Belastung, und um 23:25:17 Uhr trat es wieder ein: Server war auf einmal nicht mehr erreichbar und bootete neu.
Mittlerweile habe ich einen Zugriff per IPMI Webinterface und kann in die Logs vom Board schauen. Es handelt sich um ein ASRock X570D4U und einen screen habe ich hinzu gefügt, wobei ich aus diesen logs nichts verdächtiges rauslesen kann.
Hab alle logs mit journalctl nochmal durchsucht wegen dem letzten "reboot", aber habe überall nur gesehen, dass die Systeme einfach weg waren.

Kann eine vm oder ein lxc das Proxmox zu so einem Verhalten bringen, dass es einfach aus geht und wieder bootet?

Aktuell frage ich mich, ob ich zum testen den einen node, einfach neu Installieren soll mit VE 9 und die vm´s per Backup wieder einspielen soll?

Danke für Eure Zeit und ich wünsche allen einen schönen Sonntag.
 

Attachments

  • borad_logs.jpg
    borad_logs.jpg
    114.9 KB · Views: 10
Last edited:
  • Like
Reactions: ThoSo and UdoB
Heute Nacht habe ich den Server erneut laufen lassen mit 4 vm´s, ohne voller Belastung, und um 23:25:17 Uhr trat es wieder ein: Server war auf einmal nicht mehr erreichbar und bootete neu.
diese "--reboot--" als Text, taucht der in Proxmox oder im Log des Servers / Managementconsole Hosters aus? Oder ist das nur eine Bezeichnung vor Dir?

Rebootet der immer um die selbe Zeit herum, wenn es passiert?
Wenn ja, was laufen dann da für Prozesse oder Skripte wo dann eventuell steht, "wenn feritg dann reboot"?
Ist Server mit den Resourcen überprovisioniert (RAM / CPU) ?

Pauschal das einer VM zuzuschieben ist ohne Kenntnis der VMs und deren Prozesse von außen etwas schwierig. Wenn man das auf eine VM eingrenzen will, müsste man diese nach System ein- bzw. ausschalten. Am einfachsten ist es wohl, den PVE Server laufen zu lassen und erst einmal eine VM laufen zu lassen, wenn das hält, die nächste dazu usw, bis es scheppert.

Das Problem dabei ist, das man nicht vor Ort den Bildschirm sieht und auch nicht weiß was dort passiert (Wertungsfrei!) - da könnten Stromschwankungen, Putzfrau, Wartung durch Servicepersonal, Stecker wackelt, u.v.a.m.

Hast die Kiste mal auf ein unbekanntes Skript hin untersucht? Könnte kompromittiert sein und jemand schürft BitCoins.

Die Kiste mit PVE9 neu zu installieren hätte den Vorteil, ein neues sauberes System laufen zu haben mit dem neusten Kernel. Wenn die VMs zurückspielen kannst, wäre das eine Idee um dem Spuk vielleicht ein schnelleres Ende zu machen.

Meine Ideen gehen jetzt zur Neige.
 
Last edited:
  • Like
Reactions: Browbeat
diese "--reboot--" als Text, taucht der in Proxmox oder im Log des Servers / Managementconsole Hosters aus? Oder ist das nur eine Bezeichnung vor Dir?

Rebootet der immer um die selbe Zeit herum, wenn es passiert?
Wenn ja, was laufen dann da für Prozesse oder Skripte wo dann eventuell steht, "wenn feritg dann reboot"?
Ist Server mit den Resourcen überprovisioniert (RAM / CPU) ?

Pauschal das einer VM zuzuschieben ist ohne Kenntnis der VMs und deren Prozesse von außen etwas schwierig. Wenn man das auf eine VM eingrenzen will, müsste man diese nach System ein- bzw. ausschalten. Am einfachsten ist es wohl, den PVE Server laufen zu lassen und erst einmal eine VM laufen zu lassen, wenn das hält, die nächste dazu usw, bis es scheppert.

Das Problem dabei ist, das man nicht vor Ort den Bildschirm sieht und auch nicht weiß was dort passiert (Wertungsfrei!) - da könnten Stromschwankungen, Putzfrau, Wartung durch Servicepersonal, Stecker wackelt, u.v.a.m.

Hast die Kiste mal auf ein unbekanntes Skript hin untersucht? Könnte kompromittiert sein und jemand schürft BitCoins.

Die Kiste mit PVE9 neu zu installieren hätte den Vorteil, ein neues sauberes System laufen zu haben mit dem neusten Kernel. Wenn die VMs zurückspielen kannst, wäre das eine Idee um dem Spuk vielleicht ein schnelleres Ende zu machen.

Meine Ideen gehen jetzt zur Neige.
Diese Zeile "--Reboot--" steht in der System Log vom PVE2(sorry mein Fehler, PVE1 läuft bei mir zu Hause) drin, siehe Anhang!
Soeben habe ich wieder diese doofe Situation gehabt, Server war nicht mehr erreichbar und bootet neu hoch.
Im Anhang sind Auszüge von PVE2 "System Log" in der Proxmox Web Oberfläche, "journalctl" und ein screen aus dem "IPMI Event Log" des Mainboards.
Mir ist Aufgefallen, dass diese "Timestamp Clock Synch" im Event Log des Mainboards genau vor dem letzten Log vor dem Neustart aufgetreten ist.

Dieser Ausfall ist total unregelmäßig und ohne jeglicher Ankündigung. Habe auf den vm´s skripte laufen, aber auf PVE2 läuft keines.

Also, dass jemand anderes sich Zugriff verschafft hätte um eventuell BitCoins oder anderes darauf zu betreiben, würde ich für eher unwahrscheinlich halten. Ich habe den Netzwerk Traffic immer im Blick über den Switch im Rechenzentrum und da wär mich noch nichts aufgefallen. Passwörter sind auch eher gut gewählt, denn immerhin habe ich in meinen fast 5 Jahren im Rechenzentrum und auch zu Hause, bis jetzt noch keinen unerlaubten Zugriff feststellen können. "Ich klopfe gerade auf Holz"

Ich werde nun den Schritt wagen und VE 9 installieren und dann schaue ich mal weiter.

Danke für Eure tolle Hilfe und ich bin sehr gespannt, ob das Phänomen dann weg ist.
 

Attachments

  • pve2_journalctl_absturzt_24_08.jpg
    pve2_journalctl_absturzt_24_08.jpg
    41.7 KB · Views: 8
  • pve2_mainboard_absturzt_24_08.jpg
    pve2_mainboard_absturzt_24_08.jpg
    126.6 KB · Views: 7
  • pve2_system_log_absturzt_24_08.jpg
    pve2_system_log_absturzt_24_08.jpg
    130.7 KB · Views: 7
  • Like
Reactions: Browbeat
Guten Morgen!

Um Euch auf dem laufenden zu halten:

Proxmox läuft wieder

Ein Dankeschön an alle, die sich die Zeit genommen haben und die Mühe nicht gescheut haben und mir helfend beiseite gestanden sind. Ich habe einiges neues aus den ganzen mitgenommen für die Zukunft, bin mir aber sicher, dass ich wieder eine Frage haben werde.

Nach langem suchen in den unterschiedlichsten Log´s habe ich einfach keinen Fehler gefunden, was dieses Neustartphänomen auch nur irgendwie erklären könnte. Also habe ich beschlossen von VE 8.4.11 auf VE 9 zu wechseln, aber wie? Da alle vm´s sowie auch lxc´s durch Proxmox Backup gesichert wurden, welches auf einer anderen Hardware läuft, habe ich eine neu Installation durchgeführt. Das ging sehr rasch und alles lief, dann noch die Benutzer wieder einrichten und mit dem Store vom Backup Server verbinden und schon ging es wieder mit den Daten zurück auf die gewohnte Hardware.
Jetzt war nur meine Angst, dass eventuell eine vm dieses Phänomen auslöste und nur zu Faul war um sich einfach kurz Zeit zu nehmen um in die Logs etwas rein zu schreiben. Aber die Angst wurde mir genommen, nachdem VE 9 mit allen vm´s und lxc´s ohne Probleme wieder laufen.

Trotzdem Frage ich mich noch, was da los war.

Danke an alle für Eure Hilfe.

Liebe Grüße
Stefan