Host hängt sich auf

freddyvdh

Member
Dec 17, 2021
11
0
6
Hi,
ich habe zwei identische Server mit unterschiedlichen PVE Versionen in einem Cluster mit einem QDevice laufen, der pvecmstatus ist OK.
  • PVE01: Linux 5.15.53-1-pve #1 SMP PVE 5.15.53-1 (Fri, 26 Aug 2022 16:53:52 +0200)
  • PVE02: Linux 5.15.64-1-pve #1 SMP PVE 5.15.64-1 (Thu, 13 Oct 2022 10:30:34 +0200)
Die Systeme befinden sich noch in der Aufbau/Testphase, wobei der PVE02 als Backup System dient und zur Zeit nur eine TestVM hosted. Aus diesem Grund (und Urlaubszeit) ist der Ausfall sehr spät aufgefallen. Das PVE02 System lief bis zum Update von der August auf Oktober Version stabil, ich nutze noch das Non Production Repository, würde aber vermuten, dass das nicht noch auf dem August Stand ist.
Im Dashboard kann man den Verlauf relativ gut erkennen, ich hänge die Screenshots an.

Das Syslog zeigt nur den Reboot von heute morgen an, die syslog.1 enthält Einträge bis zum 6.11 0 Uhr, das System lief laut Dashboard bis 16 Uhr.

Ich habe immer erst den PVE02 aktualisiert, bevor ich den PVE01 auch hochgezogen habe, um das Update zu testen. Kann das trotzdem ein Problem sein? In diesem Zustand traue ich mich natürlich nicht den PVE01 zu aktualisieren.

Kann ich sonst noch irgendwo gucken, wo ich nach Anhaltspunkten für das stehenbleiben des System gucken kann?
 

Attachments

  • PVE01_month.png
    PVE01_month.png
    89.9 KB · Views: 10
  • PVE01_year.png
    PVE01_year.png
    78.5 KB · Views: 11
  • PVE02_day.png
    PVE02_day.png
    72.6 KB · Views: 10
  • PVE02_month.png
    PVE02_month.png
    63.6 KB · Views: 9
  • PVE02_year.png
    PVE02_year.png
    71 KB · Views: 11
Servus,

hast du schon in das journal geschaut: journalctl -b -1 für die Logeinträge vom letzten boot bzw.: journalctl --since "2022-11-07 11:00" --until "2022-11-08 09:00". Vielleicht geht der weiter zurück als das syslog file :).

grüße
 
Das Journal geht leider nicht weiter als als gestern zurück.

Der Host läuft stabil seitdem ich eine seit dem 15.10.22 laufende VM deaktiviert habe, aber eine VM sollte den Host ja nicht beinträchtigen.
Auf der Suche wie ich am besten einen Memtest mache habe ich diesen Post gefunden, der für mich eine Parallele hat.

Eine Frage zum Wiederherstellen einer alten Kernel Version:
Macht man das am Besten über das Bootmenu (ich habe Einträge mit älteren PVE Versionen gesehen), oder über den Rescue Boot, wie in diesem Post beschrieben?

Den Memtest kann ich über den Bootstick ausführen, richtig?
 
Ich habe gestern einen Memtest auf dem System ohne Fehler durchgeführt.

Ich habe ein paar Foreneinträge mit einem ähnlichen Phänomen gefunden (1, 2, 3?) . Eigentlich wollte ich gerade eine für beide Server Subscription abschliessen, habe bei dem Zustand kein gutes Gefühl.

Ich werde morgen vormittag einen alten Kernel Stand wiederherstellen und mit VM testen.

Auf welchem Stand ist eigentlich das Enterprise Repository?
 
Last edited:
Ich habe mittlerweile das BIOS aktualisiert und 5.15.60-1-pve aus dem BootMenu gestartet. Ich weiss allerdings nicht, wie ich eine ältere Kernel Version installiere, der Rescue Mode über einen Boot Stick funktioniert leider nicht.

Eine Subscription habe ich mittlerweile abgeschlossen, da kann ich nur sehen, dass der Kernel 5.15.64-1 anstelle von 5.15.74-1 als Update zur Verfügung steht.
 
Es war ein Hardwaretest. Der Serverlieferant konnte einen defekten RAM Baustein identifizieren.

Also alles gut mit Proxomox :cool:
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!