Proxmox bootet regelmässig neu

Borkk

New Member
May 16, 2024
4
2
3
Hallo Zusammen,

Ich komme einfach nicht mehr weiter. :oops:
Ich habe Proxmox VE 8.4.1 auf einem N100 Barbone installiert. (Link) Verbaut habe ich einen DDR5 16GB Riegel und eine 500 GB SSD. Beides von Crucial (nicht vom Ali). Auf Proxmox laufen folgende LXC´s und VM´s.
1x Docker als LXC mit Docker Containern wie Grafana, Mosquitto, NodeRed, MariaDB und piHole.
1x Tailscale als LXC als VPN Verbindung zu Maschinen im Internet
1x Raspberrymatic VM
1x HomeAssistant OS als VM

Das Ganze lief über viele Monate wie ein Uhrwerk, doch seit ein paar Wochen habe ich den totalen Frost drin. 4-5 mal am Tag startet der Rechner einfach komplett neu.

Hier mal ein paar Zeilen aus dem System Log des letzten Ausfalls um 10:26 Uhr heute.

Code:
Apr 23 07:17:01 pve CRON[49093]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 07:17:01 pve CRON[49094]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Apr 23 07:17:01 pve CRON[49093]: pam_unix(cron:session): session closed for user root
Apr 23 07:18:40 pve kernel: perf: interrupt took too long (3196 > 3150), lowering kernel.perf_event_max_sample_rate to 62000
Apr 23 08:17:01 pve CRON[62038]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 08:17:01 pve CRON[62039]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Apr 23 08:17:01 pve CRON[62038]: pam_unix(cron:session): session closed for user root
Apr 23 08:36:21 pve IPCC.xs[935]: pam_unix(proxmox-ve-auth:auth): authentication failure; logname= uid=0 euid=0 tty= ruser= rhost=::ffff:192.168.23.175  user=root
Apr 23 08:36:23 pve pvedaemon[935]: authentication failure; rhost=::ffff:192.168.23.175 user=root@pam msg=Authentication failure
Apr 23 09:15:41 pve systemd[1]: Starting man-db.service - Daily man-db regeneration...
Apr 23 09:15:41 pve systemd[1]: man-db.service: Deactivated successfully.
Apr 23 09:15:41 pve systemd[1]: Finished man-db.service - Daily man-db regeneration.
Apr 23 09:17:01 pve CRON[75148]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 09:17:01 pve CRON[75149]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Apr 23 09:17:01 pve CRON[75148]: pam_unix(cron:session): session closed for user root
Apr 23 09:34:15 pve systemd[1]: Starting apt-daily.service - Daily apt download activities...
Apr 23 09:34:15 pve systemd[1]: apt-daily.service: Deactivated successfully.
Apr 23 09:34:15 pve systemd[1]: Finished apt-daily.service - Daily apt download activities.
Apr 23 10:17:01 pve CRON[88299]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 10:17:01 pve CRON[88300]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Apr 23 10:17:01 pve CRON[88299]: pam_unix(cron:session): session closed for user root
-- Reboot --
Apr 23 10:26:26 pve kernel: Linux version 6.8.12-9-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-9 (2025-03-16T19:18Z) ()
Apr 23 10:26:26 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.8.12-9-pve root=/dev/mapper/pve-root ro quiet
Apr 23 10:26:26 pve kernel: KERNEL supported cpus:
Apr 23 10:26:26 pve kernel:   Intel GenuineIntel
Apr 23 10:26:26 pve kernel:   AMD AuthenticAMD
Apr 23 10:26:26 pve kernel:   Hygon HygonGenuine
Apr 23 10:26:26 pve kernel:   Centaur CentaurHauls
Apr 23 10:26:26 pve kernel:   zhaoxin   Shanghai 
Apr 23 10:26:26 pve kernel: x86/split lock detection: #AC: crashing the kernel on kernel split_locks and warning on user-space split_locks
Apr 23 10:26:26 pve kernel: BIOS-provided physical RAM map:

In der Nacht um 3:41 Uhr gab es ebenfalls einen Ausfall der so aussah:

Code:
Apr 23 01:32:42 pve systemd[1]: Starting systemd-tmpfiles-clean.service - Cleanup of Temporary Directories...
Apr 23 01:32:42 pve systemd[1]: systemd-tmpfiles-clean.service: Deactivated successfully.
Apr 23 01:32:42 pve systemd[1]: Finished systemd-tmpfiles-clean.service - Cleanup of Temporary Directories.
Apr 23 01:32:42 pve systemd[1]: run-credentials-systemd\x2dtmpfiles\x2dclean.service.mount: Deactivated successfully.
Apr 23 01:57:05 pve chronyd[729]: Source 5.45.97.204 replaced with 176.9.157.155 (2.debian.pool.ntp.org)
Apr 23 02:05:41 pve chronyd[729]: Selected source 217.160.19.219 (2.debian.pool.ntp.org)
Apr 23 02:17:01 pve CRON[14632]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 02:17:01 pve CRON[14633]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Apr 23 02:17:01 pve CRON[14632]: pam_unix(cron:session): session closed for user root
Apr 23 02:21:55 pve chronyd[729]: Selected source 5.9.19.62 (2.debian.pool.ntp.org)
Apr 23 02:23:05 pve pvedaemon[933]: <root@pam> successful auth for user 'root@pam'
Apr 23 03:10:01 pve CRON[26108]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 03:10:01 pve CRON[26109]: (root) CMD (test -e /run/systemd/system || SERVICE_MODE=1 /sbin/e2scrub_all -A -r)
Apr 23 03:10:01 pve CRON[26108]: pam_unix(cron:session): session closed for user root
Apr 23 03:17:01 pve CRON[27627]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 23 03:17:01 pve CRON[27628]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Apr 23 03:17:01 pve CRON[27627]: pam_unix(cron:session): session closed for user root
-- Reboot --
Apr 23 03:40:28 pve kernel: Linux version 6.8.12-9-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.12-9 (2025-03-16T19:18Z) ()
Apr 23 03:40:28 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.8.12-9-pve root=/dev/mapper/pve-root ro quiet
Apr 23 03:40:28 pve kernel: KERNEL supported cpus:
Apr 23 03:40:28 pve kernel:   Intel GenuineIntel
Apr 23 03:40:28 pve kernel:   AMD AuthenticAMD
Apr 23 03:40:28 pve kernel:   Hygon HygonGenuine
Apr 23 03:40:28 pve kernel:   Centaur CentaurHauls
Apr 23 03:40:28 pve kernel:   zhaoxin   Shanghai 
Apr 23 03:40:28 pve kernel: x86/split lock detection: #AC: crashing the kernel on kernel split_locks and warning on user-space split_locks
Apr 23 03:40:28 pve kernel: BIOS-provided physical RAM map:

Ich habe den starken Verdacht das die HomeAssistant VM Proxmox killt.

Folgendes habe ich bereits zur Fehlereingrenzung unternommen:
- Proxmox auf einer anderen SSD neu Installiert und VM´s aus Backup zurück gespielt (Proxmox Backup Server)
- Alles LXC´s und VM´s gestoppt, bis auf HomeAssistant
- Proxmos & HomeAssistant VM komplett neu hochgezogen und nur das HomeAssistant Back (nicht Proxmox Backup) eingespielt.
- Anderen Netzwerkport verwendet

In allen Fällen hat der Rechner trotzdem wieder gebootet.

(Während ich das schreibe startet der Rechner gerade neu :mad:)

Code:
pr 23 11:05:06 pve kernel: EXT4-fs warning (device dm-7): ext4_multi_mount_protect:328: MMP interval 42 higher than expected, please wait.

Diese Meldung sehe ich auch öfter ?!?

Am Ende verstehe ich nicht alles was da im Log steht.

Um den Post nicht noch länger zu machen, habe ich jetzt mal nicht alle VM und LXC Konfigs gepostet. Wenn sie zur Fehlersuche nötig sind kann ich sie natürlich hochladen.

Ich gehe im Augenblick fast von einem Hardware defekt aus. Entweder im RAM oder sogar auf dem Rechner selbst.

Ich bin echt ratlos und würde mich sehr über Hilfe freuen.
 
Ich habe den starken Verdacht das die HomeAssistant VM Proxmox killt.
Ich bin kein Proxmox Experte, aber das ließe sich ja leicht überprüfen in dem Du einfach mal die HA VM ein - zwei Tage lang nicht laufen lässt. Das wäre zumindest das was ich mal testen würde, wenn ich schon den Verdacht hätte das Problem könnte ggf. an der HA VM liegen.

Falls Du Dein Zuhause allerdings von der Steuerung über HA irgendwie abhängig gemacht haben solltest wäre das natürlich dann ein Problem.

Edit: Nachdem ich jetzt bei dem Link mal nachgeschaut habe was Du da für eine Kiste gekauft hast lies Dir ggf. auch mal diesen Beitrag durch:
Ja ursprünglich ging es da mal um eine ältere Proxmox Version, aber darin sind auch einige (aktuellere) Probleme mit solchen Kisten erwähnt.

VG Jim
 
Last edited:
Ich hatte HA temporär auf einen RPI4 ausgelagert. d.h. die VM ist nicht auf Proxmox gelaufen und dennoch hatte ich gerade einen Absturz. Das Netzteil habe ich übrigens auch schon getauscht. Ich habe blöderweise keinen passenden RAM da...
 
Last edited:
OK dann kannst Du die HA VM als mögliche Ursache ja vermutlich auch ausschließen. Was das Hardware-Thema betrifft kann ich Dir leider auch nicht helfen, weil die N100/N150 China Kisten nicht so wirklich mein Thema sind. Da gibt es inzwischen so viele Kisten, die unter so vielen unterschiedlichen Labeln verkauft werden, dass ich mich damit auch gar nicht beschäftigen möchte. :D Was da dann wer und wie verbaut ist m.M.n. auch noch fraglich. Ja diese N100/N150 Kisten sind preis-/leistungsmäßig natürlich durchaus reizvoll, aber ich bevorzuge da doch eher Kisten von bekannten Herstellern und ich ziehe einen (refurbished) Business PC von den üblichen Verdächtigen wie HP, Dell, Lenovo oder Fujitsu diesen N100/N150 China Kisten vor. Wobei PCs von bekannteren Herstellern natürlich auch keine Garantie dafür sind damit bei/mit Proxmox dann keine Probleme zu haben. :)

VG JIm
 
Ich habe von ähnlichen Problemen gelesen und einige Leute haben das gelöst, indem Sie einen älteren Kernel nutzen. Welche Version weiß ich nicht, aber du kannst mit proxmox-boot-tool kernel list dir anzeigen lassen welche Kernel noch installiert sind und mal eine Version anpinnen, wo du der Meinung bist, dass die Kiste noch sauber lief. Geht per proxmox-boot-tool kernel pin <deineversion>
 
Hallo zusammen, erst mal Danke für eure Hilfe.

@jim_os: ich stimme dir grundsätzlich zu und tatsächlich ist das auch meine erste (und vermutlich letzte) Hardware, die ich dort gekauft habe. Sie ist super verarbeitet, und 2 Freunde haben die gleiche gekauft und bei denen läuft alles noch super stabil. Deswegen ja mein Verdacht auf einen Defekt.

Mein Kernel ist 6.8.12-10-pve; 6.8.12-9-pve. Ich habe zwar gelesen, das man den 6.2. er anpinnen soll, wenn die Kiste beim booten stecken bleibt. Das macht meine aber nicht. Sie bootest sauber und läuft auch sauber, bist zum reboot.

Leider kann ich die Home Assistant VM doch nicht ganz ausschliessen. Ich hatte sie über Nacht gestoppt und der Rechner hat nicht neu gebootet. Das ist aber auch kein echter Beweis, weil ja die Maschine ohne HA VM quasi nix macht. Ich warte jetzt mal auf den neuen Speicher der soll heute kommen.

Ich habe die Raspberrymatic schon mal auf die Synology ausgelagert, das mache ich heute Abend noch mit dem Docker. Einfach um alles immer weiter einzugrenzen. Blöd ist nur wenn der Fehler nur bei einer bestimmten "Last" auftaucht, komme ich mir der Strategie auch nicht zum Ziel....

Ist echt wie verhext :-(

Ich tippe ja nach wie vor auf die HA VM, das ist das einzige System an dem ich die letzen Wochen was verändert habe. Alle anderen Container und auch Proxmox selbst habe ich nicht angerührt. Ausser natürlich Updates zu machen.
 
Gestern kam der neue Speicherriegel... und was soll ich sagen. Mit dem neuen Speicher kein Ausfall mehr. :D

Vielen Dank für eurer Unterstützung, ich hoffe jetzt mal, dass jetzt alles wieder stabil läuft und es der Speicher war. An so einem Case sieht man mal wieder, wie wichtig eine halbwegs gute Backup Strategie ist.
 
  • Like
Reactions: Falk R. and UdoB