PVE Reboot - sporadisch

Quickly

Well-Known Member
Sep 16, 2012
97
4
48
Hallo.
Ich habe einen PVE 7.x neu aufgesetzt. 2 Wochen war alles toll.
Dann hatte ich plötzlich einen "permanenten" Reboot. Also in Dauerschleife. Leider keine Chance hier Logs zu bekommen.
Der Reboot wurde ausgelöst...
a) teilweise direkt nach ZFS, beim booten --> konnte nur wenig lesen.
b) meistens 10-20 Sekunden nachdem "LogIn" zu lesen war.
Dann habe ich einen längeren Mem-Test (ISO) ausgeführt. Keine Fehler sichtbar.
Und dann konnte ich plötzlich wieder PVE booten...
Jetzt habe ich um ca. 02:30 Uhr einen erneuten Chrash und Reboot gehabt.
Keine Ahnung wo ich ansetzen soll.

Als Anlage mal ein Log. Vielleicht fällt jemandem etwas auf und ich bekomme einen Hinweis wo der Ansatz sein sollte.

# Bemerkung
Memtest lief 3 Tage... keine Probleme. Ich vermute, dass der Crash/Reboot durch PVE ausgelöst wird?!?!?

Danke, Lars
 

Attachments

  • ProxMox1_Syslog.txt
    241 KB · Views: 9
# Nachtrag
  • Es sind insgesamt 5 VMs vorhanden
  • 2 Stk. (Firewall und UniFi) starten immer mit.
  • 3 Stk. (Windows) habe ich wegen dem Fehler mal auf "nicht Autostart" gesetzt. Waren also den ganzen Morgen aus. Keine Probleme.
  • Um 11:05 Uhr habe ich diese 3 VMs nun wieder gestartet.
  • Um 11:25 Uhr bekomme ich nun wieder die Meldung: ALLE VMs offline, also wieder Chrash.
:eek:
 
Du könntest statt dem 5.13 kernel mal den optionalen 5.15 Kernel versuchen. Deine Hardware ist ja recht neu. Vielleicht hilft es etwas.
https://forum.proxmox.com/threads/opt-in-linux-kernel-5-15-for-proxmox-ve-7-x-available.100936/

Cluster hast du nicht? Da können Netzwerkprobleme ja auch zum Reboot führen wenn die Corosync Verbindung Probleme hat.
# 5.13 kernel
Tja, ich werde es mal versuchen. Allerdings komme ich gar nicht mehr ans OS ran... mal schauen.

# Reboot führen wenn die Corosync
Nein, Cluster ist es nicht.
Jedoch... nur so ein spontaner Gedanke... UniFi PoE Switches... könnte es sein, dass... irgendwie damit zusammen hängt?!??!
Mal schauen... glaub ich aber irgendwie nicht.
 
Wie sind denn die NVMes (4x Corsair_MP600_PRO) angebunden ans System? Das Basis-System hat eigentlich kein 4x M.2
Ggf. mal ohne die vermutlich verbaute M.2 NVME Addin-Karte und den 4 NVMes starten - bleibt das System dann stabil?
 
Wie sind denn die NVMes (4x Corsair_MP600_PRO) angebunden ans System? Das Basis-System hat eigentlich kein 4x M.2
Ggf. mal ohne die vermutlich verbaute M.2 NVME Addin-Karte und den 4 NVMes starten - bleibt das System dann stabil?
Moin.
Die 4x NVMe sind angebunden über 2x Supermicro 2x M.2 SSD NVMe PCIe 3.0 x8 Bifurcation (AOC-SLG3-2M2-O).
Läuft auch perfekt, da wir damit schon ca. 20 Server raus haben.
Jedoch... aufgebaut hatte ich die natürlich auch schon. ;)
Bringt keine Besserung.
Zusätzlich, ich hatte gerade einen baugleichen weiteren Server in Werkstatt, habe ich den RAM getauscht. Bringt auch nix... Mist!

Irgendwas was ich im BIOS noch machen kann? Habe mal BIOS Reset gemacht und wieder Boot auf Legacy gestellt. Bringt auch nix. :confused:
Kann muss ich im BIOS noch was besonders einstellen? (SN TK = 9000275099)
 
Last edited:
Also das letzte was ich sehe ist
  • Loading Linux 5.13.19-6 PVE
  • Loading inital ramdisk
Und dann ist Reboot.
 
Moin.
Die 4x NVMe sind angebunden über 2x Supermicro 2x M.2 SSD NVMe PCIe 3.0 x8 Bifurcation (AOC-SLG3-2M2-O).
Läuft auch perfekt, da wir damit schon ca. 20 Server raus haben.
Jedoch... aufgebaut hatte ich die natürlich auch schon. ;)
Bringt keine Besserung.
Zusätzlich, ich hatte gerade einen baugleichen weiteren Server in Werkstatt, habe ich den RAM getauscht. Bringt auch nix... Mist!

Irgendwas was ich im BIOS noch machen kann? Habe mal BIOS Reset gemacht und wieder Boot auf Legacy gestellt. Bringt auch nix. :confused:
Kann muss ich im BIOS noch was besonders einstellen? (SN TK = 9000275099)
Moin! :) Vielleicht mal von nem Debian/Ubuntu Live Linux starten und schauen ob die Reboots auch dort auftreten?

Ansonsten könnte man je nach Möglichkeit auch mal neu installieren und den ZFS-DATA Pool importieren (vorher VM-Hüllen backupen usw.: https://www.thomas-krenn.com/de/wik...roxmox_Single_Host_Reinstall_ohne_Full-Backup) sofern die VMs separiert vom ZFS-Mirror auf einem eigenen ZFS-Pool liegen.

Backup von den VM/CT Hüllen und /etc/network/interfaces etc. wäre mit LIVE-CD wahrscheinlich auch am Einfachsten. Ansonsten falls es wirklich an der HW liegen sollte, gibts ja entsprechend die Möglichkeit eines RMA beim Hersteller.
 
Last edited:
Moin! :) Vielleicht mal von nem Debian/Ubuntu Live Linux starten und schauen ob die Reboots auch dort auftreten?

Ansonsten könnte man je nach Möglichkeit auch mal neu installieren und den ZFS-DATA Pool importieren (vorher VM-Hüllen backupen usw.: https://www.thomas-krenn.com/de/wik...roxmox_Single_Host_Reinstall_ohne_Full-Backup) sofern die VMs separiert vom ZFS-Mirror auf einem eigenen ZFS-Pool liegen.

Backup von den VM/CT Hüllen und /etc/network/interfaces etc. wäre mit LIVE-CD wahrscheinlich auch am Einfachsten. Ansonsten falls es wirklich an der HW liegen sollte, gibts ja entsprechend die Möglichkeit eines RMA beim Hersteller.
Ok, ich mache ja bereits alles parallel. ;)
  1. RAM getauscht
  2. NVMe + SATA raus, also alles was nicht zwingend benötigt wird raus
  3. Neuinstallation -> Boot USB PVE 6.4 -> diverse Rückmeldungen, 10 Sekunden -> Reboot
  4. Neuinstallation -> Boot USB PVE 7.1 -> diverse Rückmeldungen, 10 Sekunden -> Reboot
  5. Neuinstallation -> Boot USB Debian 11 -> hier sehe ich nix, 10 Sekunden -> Reboot
Also ich denke Mainboard oder CPU. Zumal das System ja bereits 2 Wochen sauber gelaufen ist.
Und da bin wirklich froh, dass ich die Hardware bei tollen Lieferanten gekauft habe (siehe Logo von jsterr). :cool:

Ich danke allen für die Hilfe. Zumindest sehen wir hier was man auf die schnelle alles machen kann.

# Und der letzte Nachtrag
Die Boot-Platten (ZFS) habe ich auch gerade noch durch neue getauscht. Bringt nix.... also RMA einleiten.
 
Last edited:
  • Like
Reactions: jsterr
Ok, ich mache ja bereits alles parallel. ;)
  1. RAM getauscht
  2. NVMe + SATA raus, also alles was nicht zwingend benötigt wird raus
  3. Neuinstallation -> Boot USB PVE 6.4 -> diverse Rückmeldungen, 10 Sekunden -> Reboot
  4. Neuinstallation -> Boot USB PVE 7.1 -> diverse Rückmeldungen, 10 Sekunden -> Reboot
  5. Neuinstallation -> Boot USB Debian 11 -> hier sehe ich nix, 10 Sekunden -> Reboot
Also ich denke Mainboard oder CPU. Zumal das System ja bereits 2 Wochen sauber gelaufen ist.
Und da bin wirklich froh, dass ich die Hardware bei tollen Lieferanten gekauft habe (siehe Logo von jsterr). :cool:

Ich danke allen für die Hilfe. Zumindest sehen wir hier was man auf die schnelle alles machen kann.

Ich hab mal den Kollegen Bescheid gegeben, die werden sich demnächst mit dem Vorschlag zum Tausch von Mainboard / CPU melden - je nachdem was dann getauscht werden muss, kann der Rest dann zurück. Sorry für die Umstände! Danke & VG
 
  • Like
Reactions: Dunuin
Ich hab mal den Kollegen Bescheid gegeben, die werden sich demnächst mit dem Vorschlag zum Tausch von Mainboard / CPU melden - je nachdem was dann getauscht werden muss, kann der Rest dann zurück. Sorry für die Umstände! Danke & VG
# Sorry für die Umstände
Ach was... bei den ganzen Servern die ich von Euch habe... das kann passieren. Steckt man ja auch nicht drin.
2 Wochen alles tutty... dann sowas. Ist doch logisch, dass das dann passiert wenn der Server "produktiv" gehen soll.
Sonst könnte das ja auch jeder... :D
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!