sporadische Reboots

mkelle

New Member
Feb 10, 2025
4
0
1
Hallo zusammen,

dies ist mein erster Post im Forum.
Seit ein paar Monaten benutze ich Proxmox in einem kleinen Homelab mit ein paar CTs und VMs.
Hauptsächlich OPNsense, Homeassistant, FHEM,..

Die Systeme liefen bislang stabil auf folgender Hardware:

2mal
n100
4*2,5 GB Ethernet
16GB
m2 SSD
PVE Community Edition

Sie laufen als Cluster ohne HA.
Memtest war auch ok.

Letztlich habe ich auf die aktuellste Version von Proxmox aktualisiert.
Seitdem habe ich sporadisch reboots ohne eine Spur von Logeinträgen.

Ich habe gestern mal den älteren zur Verfügung stehenden Kernel gepinned (hat eine 7 am Ende, der mit der 8 ist wohl der aktuelle produktive Kernel), damit habe ich trotzdem reboots.

Ich suche noch eine Lösung wie ich den letzten von mir zur bekannten, funktionierenden Kernel. (es war der mit der 4 am Ende) wieder als Boot-Kernel aktiviere

Er ist laut Package Auskunft installiert, lässt sich aber im boot-tool nicht auswählen. Wer dazu einen Tipp hat, immer gerne.

Meine eigentliche Frage ist aber ob mit dem aktuellen Release jemand anders ebenfalls die Probleme der reboots hat.
Hardware schließe ich jetzt mal vorsichtig aus, weil die Maschinen vorher stabil liefen.

Ich würde mich sehr über eure Antworten freuen.

Beste Grüße
Martin
 
Last edited:
Hi, du kannst dir per apt jeden beliebigen online verfügbaren Kernel installieren.
Damm mit dem proxmox-boot-tool anpinnen. Wenn das dein Problem behebt, dann liegt es an irgend einer Komponente im Kernel, wie z.B. Treiber.

Gib mal apt install proxmox-kernel-6.8ein und drücke TAB, dann werden dir alle verfügbaren kernel angezeigt.
 
  • Like
Reactions: waltar
Hi Falk,

und besten Dank.
Ich habe den Kernel 6.8.12-4 installiert.
Das war der ursprüngliche Kerne mit dem ich die Maschine aufgesetzt habe.
Mal gucken wo ich lande.

Beste Grüße
 
Das hat leider nicht geholfen.

Den RAM könnte ich nochmal tauschen (obowhl der Memtest erfolgreich war) oder ich versuche die Maschine neu aufzusetzen und hoffe, dass sie irgendein Softwarebug hatte.

Die andere Maschine läuft erstmal stabil.
 
diese N100 (und verwandte) boxen sind notorisch anfaellig fuer stabilitaetsprobleme.. gibt ne reihe an threads dazu hier im forum mit tipps und tricks (firmware updates, UEFI settings, ..)
 
  • Like
Reactions: GMBauer
Hallo zusammen,

ich habe die Maschine nochmal frisch aufgesetzt.
Leider ohne Erfolg:


Code:
Feb 14 16:12:32 fanproxxe kernel: BUG: Bad page state in process CPU 0/KVM  pfn:587525
Feb 14 16:12:32 fanproxxe kernel: page:000000006b452a38 refcount:0 mapcount:0 mapping:0000000000000000 index:0x0 pfn:0x587525
Feb 14 16:12:32 fanproxxe kernel: flags: 0x17ffff62000000(idle|node=0|zone=2|lastcpupid=0x1ffffd)
Feb 14 16:12:32 fanproxxe kernel: page_type: 0xffffffff()
Feb 14 16:12:32 fanproxxe kernel: raw: 0017ffff62000000 ffffd007d61d4948 ffffd007d61d4948 0000000000000000
Feb 14 16:12:32 fanproxxe kernel: raw: 0000000000000000 0000000000000000 00000000ffffffff 0000000000000000
Feb 14 16:12:32 fanproxxe kernel: page dumped because: PAGE_FLAGS_CHECK_AT_PREP flag(s) set
Feb 14 16:12:32 fanproxxe kernel: Modules linked in: veth tcp_diag inet_diag ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter nf_tables bonding tls softdog sunrpc binfmt_misc nfnetlink_log nfnetlink intel_rapl_msr intel_rapl_common x86_pkg_temp_thermal intel_powerclamp xe coretemp snd_hda_codec_hdmi drm_gpuvm kvm_intel drm_exec gpu_sched drm_suballoc_helper snd_sof_pci_intel_tgl drm_ttm_helper snd_sof_intel_hda_common soundwire_intel snd_sof_intel_hda_mlink kvm soundwire_cadence snd_sof_intel_hda snd_sof_pci snd_sof_xtensa_dsp snd_sof irqbypass snd_sof_utils snd_soc_hdac_hda crct10dif_pclmul snd_hda_ext_core polyval_clmulni polyval_generic snd_soc_acpi_intel_match ghash_clmulni_intel snd_soc_acpi soundwire_generic_allocation sha256_ssse3 soundwire_bus sha1_ssse3 aesni_intel snd_soc_core crypto_simd snd_compress ac97_bus cryptd mei_pxp mei_hdcp snd_pcm_dmaengine snd_hda_intel i915 snd_intel_dspcfg snd_intel_sdw_acpi snd_hda_codec snd_hda_core snd_hwdep snd_pcm drm_buddy snd_timer ttm
Feb 14 16:12:32 fanproxxe kernel:  cmdlinepart drm_display_helper rapl spi_nor snd intel_cstate pcspkr mtd wmi_bmof soundcore serial_multi_instantiate cec mei_me rc_core mei intel_pmc_core i2c_algo_bit igen6_edac intel_vsec pmt_telemetry acpi_tad pmt_class acpi_pad mac_hid zfs(PO) spl(O) vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 btrfs blake2b_generic xor raid6_pq dm_thin_pool dm_persistent_data dm_bio_prison dm_bufio libcrc32c nvme nvme_core xhci_pci i2c_i801 sdhci_pci spi_intel_pci xhci_pci_renesas crc32_pclmul spi_intel i2c_smbus nvme_auth cqhci igc ahci sdhci xhci_hcd libahci video wmi
Feb 14 16:12:32 fanproxxe kernel: CPU: 1 PID: 33756 Comm: CPU 0/KVM Tainted: P    B      O       6.8.12-8-pve #1
Feb 14 16:12:32 fanproxxe kernel: Hardware name: Default string Default string/Default string, BIOS BKHD1264NP4LV11R007A 11/20/2023
Feb 14 16:12:32 fanproxxe kernel: Call Trace:
Feb 14 16:12:32 fanproxxe kernel:  <TASK>
Feb 14 16:12:32 fanproxxe kernel:  dump_stack_lvl+0x76/0xa0

Ich werde doch mal den RAM tauschen
EDIT: Hat nichts gebracht.

Kann das an einem Guest liegen?

Ich habe schon getauscht:
RAM
Netzteil
keine USB devices mehr dran
... ärgerlich
 
Last edited:
Hi @mkelle,

Ich habe das gleiche Gerät, mit der gleichen BIOS-Version und auch das gleiche Problem.

Du kannst die Crashes unterbinden, indem du im BIOS Intel SpeedStep und SpeedShift, also Turbo Boost, deaktivierst. So mache ich das auch gerade. Leider fehlt einem damit aber eine ganze Menge Performance.

Hast du vielleicht eine andere Lösung gefunden?
 
Oft genug ist der Microcode der Boxen nicht aktuell, es empfiehlt sich, mit "apt install intel-microcode" den aktuellen einzuspielen.

Tatsächlich gibt es auch ein bekanntes Problem mit PCID bei N100, aber das ist seit 2023 bekannt und in Linux wird das bei dieser CPU automatisch abgeschaltet (https://git.kernel.org/pub/scm/linu.../?id=ae8373a5add4ea39f032563cf12a02946d1e3546), nur bei FreeBSD muss man das noch explizit tun.
 
  • Like
Reactions: Johannes S
Moin @mr44er und @meyergru,

Erstmal vielen Dank für eure Hilfe.

Das intel-microcode Package ist bei mir bereits auf dem aktuellen Stand. PCID habe ich mit der nopcid Option in /etc/kernel/cmdline nochmal explizit deaktiviert. Ich habe außerdem ein anderes BIOS geflasht.
Code:
root@n100:~# apt install intel-microcode
intel-microcode is already the newest version (3.20250512.1).
Summary:
  Upgrading: 0, Installing: 0, Removing: 0, Not Upgrading: 0
root@n100:~# cat /proc/cmdline
initrd=\EFI\proxmox\6.14.11-1-pve\initrd.img-6.14.11-1-pve root=UUID=309f58c2-91c6-4b2e-aa95-c8fa201ff6ef nopcid
root@n100:~# dmidecode -s bios-version
5.27

Die 3 Lösungsansätze haben leider nicht geholfen, das Fehlerbild ist weiterhin das gleiche.

Das Ausschalten von TurboBoost (SpeedShift & SpeedStep) im BIOS ist immer noch das einzige, was die Crashes langfristig unterbindet. Ohne TurboBoost geht die CPU aber schon bei 800 Mbit Routing in die Knie, was natürlich blöd ist.

Habt ihr sonst noch Ideen oder hab ich etwas übersehen?
 
Sind beide Maschinen betroffen?

Erfahrungsgemäß sind die Kisten im BIOS auf viel zu hohe Power Limits (12.5/25 Watt( eingestellt, um Performance herauszuholen. Die könntest Du ggf. reduzieren auf die regulären Werte (6/12.5 Watt), bei passiv gekühlten Systemen würde ich das höhere Limit nicht länger als 8-10s halten.

Das schränkt die Performance nur minimal ein (so 5-10%).

Die Tatsache, dass das Abschalten von Speedstep usw. eine besserung bringt, lässt mich denken, dass entweder die mitgelieferten Billig-Netzteile zu schwach sind oder die Pufferung/Filterung in der Box selbst.

Wenn Du ein anderes Netzteil hast, würde ich das mal probieren. Es sind meistens 12V, nicht 19V, wie bei Laptops. Es gibt Qualitätsmodelle von Leicke.
 
Sind beide Maschinen betroffen?

Erfahrungsgemäß sind die Kisten im BIOS auf viel zu hohe Power Limits (12.5/25 Watt( eingestellt, um Performance herauszuholen. Die könntest Du ggf. reduzieren auf die regulären Werte (6/12.5 Watt), bei passiv gekühlten Systemen würde ich das höhere Limit nicht länger als 8-10s halten.

Das schränkt die Performance nur minimal ein (so 5-10%).

Die Tatsache, dass das Abschalten von Speedstep usw. eine besserung bringt, lässt mich denken, dass entweder die mitgelieferten Billig-Netzteile zu schwach sind oder die Pufferung/Filterung in der Box selbst.

Wenn Du ein anderes Netzteil hast, würde ich das mal probieren. Es sind meistens 12V, nicht 19V, wie bei Laptops. Es gibt Qualitätsmodelle von Leicke.
Das mitgelieferte Netzteil hat 12V 5A. Habe bereits ein anderes 12V5A und ein 12V10A Netzteil von Amazon ausprobiert. Die PL1 und PL2 Limits habe ich auch schon auf 6000 und 10000 abgesenkt. Das war aber bevor ich das BIOS gewechselt habe also probiere ich das ganze nochmal :)
 
Som @meyergru,

hab's versucht.

PL1 6W, PL2 12,5W. Hat ganze 15 Minuten gehalten und sich dann wieder abgeschossen. :D

Sonst noch Ideen? Der Verkäufer auf Aliexpress bietet mir leider nur eine Reperatur auf meine Kosten an.
 
mir leider nur eine Reperatur auf meine Kosten an.
Würde mich ja interessieren, wie die Reparatur aussähe. :D
Aber nope, mehr Ideen habe ich nicht. Wie ich auch bei BSDForen schrieb wäre da so der Punkt erreicht, wo ich das Gelumpe aufgeben würde. Normal bin ich verbissen bei sowas, aber es sieht ja insgesamt nicht rosig aus. Auf der anderen Seite reden wir ja nicht von hunderten Euro Warenwert.