Proxmox freeze nach kernel update to 6.8.4-2-pve

Bierfassl · May 1, 2024

Ein Statement von Proxmox wäre mal interessant, ob der Fehler untersucht wird oder was auch immer. Wäre auch bereit jederzeit bei einer Lösung soweit möglich beizutragen.

Der Harry · May 1, 2024

Bierfassl said:
Ein Statement von Proxmox wäre mal interessant, ob der Fehler untersucht wird oder was auch immer. Wäre auch bereit jederzeit bei einer Lösung soweit möglich beizutragen.

no rush - no blaming - no preasure ...

Die machen schon. Ich baue gerne alles an debug ein was ich kann. Ich builde gerne Kerne und teste.

Das ist halt leider ein sehr dummes Problem zum einfangen, weil sich die Crashberichte nicht decken.

Ich habe ggf. 10 ideen zum ausproberen, würde das aber sehr gerne auf einem USB stick dann machen und nicht auf meinen SSDs/NAS Platten .

... oder es könnte schon gefixt sein.

Bierfassl · May 1, 2024

Der Harry said:
no rush - no blaming - no preasure ...

So war es auch nicht gedacht.

Ich könnte halt wie man so sagt ruhiger schlafen wenn ich wüsste dass es zumindest tatsächlich ein bestätigtes Problem ist, das irgendwann gefixt wird, oder ob ein anderes Problem besteht. Die Ungewissheit halt…

Ob es dann einen Tag oder drei Wochen dauert ist mir dann egal.

marcelx18 · May 1, 2024

Ich kann die Probleme nach dem Kernel Update auf einem Hetzner Server auch bestätigen. Die Server sind direkt beim Start in einem Kernel Panic verfallen. Habe dank Hetzner Rescue System geschaft einen älteren Kernel anzupinnen.

Bierfassl said:
Ich könnte halt wie man so sagt ruhiger schlafen wenn ich wüsste dass es zumindest tatsächlich ein bestätigtes Problem ist, das irgendwann gefixt wird, oder ob ein anderes Problem besteht. Die Ungewissheit halt…

Ich stimme dir zu. Ich habe jetzt erstmal die Updates für restliche Server verschoben.
Mal schauen was sich tut.

Chr__Au · May 2, 2024

Habe das gleiche Problem. Bin auch bei Hetzner.

ksb · May 2, 2024

ksb said:
Habe ebenfalls Probleme mit einem EX101 bei Hetzner.
Liest sich hier sehr ähnlich zu meinen Logs .

Hier mal mein englischer Thread:
https://forum.proxmox.com/threads/random-freezes-maybe-zfs-related.145695/#post-659925

Ursprünglich noch mit 6.5er Kernel, aktuell auf 6.8.
Das Verhalten und die Meldungen kommen jedoch den Problemen in diesem Thread verdächtig nahe.

Ich bin mir sehr sicher, dass ich mit 6.5 mich nicht mal mehr per SSH einloggen konnte, mit 6.8 hingegen schon, sodass ich in der Lage war ein "top" aufzurufen (KVMs >=100% CPU).
Also wurde evtl. mein Ursprungsproblem mit 6.8 behoben und habe nun aber die neuen 6.8er Probleme.

sirebral · May 2, 2024

It's not only Hetzner, I run my own boxes and they're newer than what you guys are running. They are supermicro, yet they also have issues.

zzzhr · May 3, 2024

I am running at my own homelab with the same issues.

My CPU is AMD 7R13 and just upgrade PVE to

Code:

6.8.4-2-pve #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-2 (2024-04-10T17:36Z) x86_64 GNU/Linux

, and it will freeze in serval hours after startup. both console and dmesg cannot found anything related this. and I'm not using zfs.

another machine is running

Code:

6.5.13-5-pve #1 SMP PREEMPT_DYNAMIC PMX 6.5.13-5 (2024-04-05T11:03Z) x86_64 GNU/Linux

works fine.

chriswol · May 3, 2024

Hi,

vielleicht ist mein Problem hier nicht 100% passend, tritt aber auch erst mit Kernel 6.8 auf. Kernel 6.5 läuft.

Wir haben einen neuen Ceph Cluster mit Thomas Krenn AMD Servern (Supermicro H12SSL-NT). Beim Start werden die Dienste ifupdown2-pre.service und systemd-udev-settle.service nicht gestartet, so dass eine Netzwerkverbindung nicht möglich ist. Einen Freeze konnte ich nicht verifizieren, da sind aber auch noch keine VMs in dem Cluster am Laufen.

Der Harry · May 3, 2024

chriswol said:
Hi,

vielleicht ist mein Problem hier nicht 100% passend, tritt aber auch erst mit Kernel 6.8 auf. Kernel 6.5 läuft.

Wir haben einen neuen Ceph Cluster mit Thomas Krenn AMD Servern (Supermicro H12SSL-NT). Beim Start werden die Dienste ifupdown2-pre.service und systemd-udev-settle.service nicht gestartet, so dass eine Netzwerkverbindung nicht möglich ist. Einen Freeze konnte ich nicht verifizieren, da sind aber auch noch keine VMs in dem Cluster am Laufen.

So hat's bei jedem angefangen

Ping geht nicht, No route to Host und auf dem Host dann kein Ping nach außen

Dann ein "dmesg" und der Kernel Crash lacht dich an.

Verschwörungstheorie: die AI im Kernel fängt an zu rebellieren.

gio2022 · May 3, 2024

Hallo zusammen,
Es geht nicht nur um die Netzwerkkarte. Ich habe ein Passthrough für die GPU-Karte durchgeführt und nach einer kleinen Änderung an der Konfiguration der VM (ich musste die VM verschieben und die Anbindung zu PCI auflösen und wieder erstellen), funktioniert nichts mehr. Mit dem alten Kernel läuft alles perfekt.

Viele Grüße,

Gio

Falk R. · May 3, 2024

chriswol said:
Hi,

vielleicht ist mein Problem hier nicht 100% passend, tritt aber auch erst mit Kernel 6.8 auf. Kernel 6.5 läuft.

Wir haben einen neuen Ceph Cluster mit Thomas Krenn AMD Servern (Supermicro H12SSL-NT). Beim Start werden die Dienste ifupdown2-pre.service und systemd-udev-settle.service nicht gestartet, so dass eine Netzwerkverbindung nicht möglich ist. Einen Freeze konnte ich nicht verifizieren, da sind aber auch noch keine VMs in dem Cluster am Laufen.

Das Phänomen mit nicht startenden ifupdown2 konnte ich auch bei einer Neuinstallation auf einem alten HPE DL380 Gen10 beobachten.
Ein Manuelles ifup vmbr0 reicht um den Server wieder zum laufen zu bringen. Damit ist der aber nicht mehr rebootfest.

Der Harry · May 5, 2024

Falk R. said:
Das Phänomen mit nicht startenden ifupdown2 konnte ich auch bei einer Neuinstallation auf einem alten HPE DL380 Gen10 beobachten.
Ein Manuelles ifup vmbr0 reicht um den Server wieder zum laufen zu bringen. Damit ist der aber nicht mehr rebootfest.

Ich würde mal ohne die quiet option booten und schauen, was der so im log schreibt.

In den letzten Tage habe ich so oft gebootet, ich kann es kaum noch zählen - hatte das Problem aber nie. Ggf. weil ich über Debian 12 Proxmox installiert habe.

gio2022 · May 6, 2024

gio2022 said:
Hello zusammen,
ich habe das gleich https://forum.proxmox.com/threads/network-probleme-nach-update-auf-8-2-2.145922/#post-658110
Keine Hetzner Server. Supermicro AMD Milan 2 Jahre alt.
Der Supermicro AMD Milan, der 3 Jahre alt ist, hat das update gut überstanden ohne einzufriren.
Grüßle

Passtrought für die GPUs noch mal eingestellt und die VM hat nicht mehr gebootet. Also auch die 3 Jahre alt Server ist mit dem alte Kernel unterwegs :-(

asteinba · May 10, 2024

Same problem here also with Hetzner (EX44) and Kernel version 6.8.4-3-pve. Is there any bug ticket open yet?

Host freezes but existing SSH connection barely works. Executing something like htop lets the SSH session freeze as well. I was able to execute dmesg -k after the issue appeared:

Code:

[  480.549319] BUG: kernel NULL pointer dereference, address: 0000000000000008
[  480.549325] #PF: supervisor write access in kernel mode
[  480.549327] #PF: error_code(0x0002) - not-present page
[  480.549328] PGD 0 P4D 0
[  480.549330] Oops: 0002 [#1] PREEMPT SMP NOPTI
[  480.549332] CPU: 2 PID: 6593 Comm: kvm Not tainted 6.8.4-3-pve #1
[  480.549335] Hardware name: ASUS System Product Name/PRIME B760M-A D4, BIOS 9006 02/20/2023
[  480.549336] RIP: 0010:blk_flush_complete_seq+0x291/0x2d0
[  480.549340] Code: 0f b6 f6 49 8d 56 01 49 c1 e6 04 4d 01 ee 48 c1 e2 04 49 8b 4e 10 4c 01 ea 48 39 ca 74 2b 48 8b 4b 50 48 8b 7b 48 48 8d 73 48 <48> 89 4f 08 48 89 39 49 8b 4e 18 49 89 76 18 48 89 53 48 48 89 4b
[  480.549343] RSP: 0018:ffffaf04c58fba50 EFLAGS: 00010046
[  480.549345] RAX: 0000000000000000 RBX: ffff927659f38600 RCX: ffff927659f38648
[  480.549347] RDX: ffff927653f4e4a0 RSI: ffff927659f38648 RDI: 0000000000000000
[  480.549348] RBP: ffffaf04c58fba90 R08: 0000000000000000 R09: 0000000000000000
[  480.549350] R10: 0000000000000000 R11: 0000000000000000 R12: 0000000000029801
[  480.549351] R13: ffff927653f4e480 R14: ffff927653f4e490 R15: ffff927659c24448
[  480.549353] FS:  000071929f0006c0(0000) GS:ffff92857ed00000(0000) knlGS:0000000000000000
[  480.549355] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  480.549356] CR2: 0000000000000008 CR3: 0000000108c54000 CR4: 0000000000f52ef0
[  480.549358] PKRU: 55555554
[  480.549359] Call Trace:
[  480.549360]  <TASK>
[  480.549363]  ? show_regs+0x6d/0x80
[  480.549367]  ? __die+0x24/0x80
[  480.549369]  ? page_fault_oops+0x176/0x500
[  480.549371]  ? md_submit_bio+0x63/0xb0
[  480.549375]  ? do_user_addr_fault+0x2f9/0x6b0
[  480.549378]  ? exc_page_fault+0x83/0x1b0
[  480.549381]  ? asm_exc_page_fault+0x27/0x30
[  480.549384]  ? blk_flush_complete_seq+0x291/0x2d0
[  480.549385]  ? __blk_mq_alloc_requests+0x3e7/0x450
[  480.549388]  ? wbt_wait+0x33/0x100
[  480.549390]  blk_insert_flush+0xce/0x220
[  480.549392]  blk_mq_submit_bio+0x641/0x750
[  480.549394]  __submit_bio+0xb3/0x1c0
[  480.549396]  submit_bio_noacct_nocheck+0x2b7/0x390
[  480.549398]  submit_bio_noacct+0x1f3/0x650
[  480.549400]  ? ext4_file_write_iter+0x380/0x7e0
[  480.549403]  submit_bio+0xb2/0x110
[  480.549405]  md_super_write+0xcf/0x110
[  480.549406]  write_sb_page+0x148/0x300
[  480.549409]  filemap_write_page+0x5b/0x70
[  480.549411]  md_bitmap_unplug+0x99/0x200
[  480.549414]  flush_bio_list+0x108/0x110 [raid1]
[  480.549419]  raid1_unplug+0x3c/0xf0 [raid1]
[  480.549422]  __blk_flush_plug+0xbe/0x130
[  480.549424]  blk_finish_plug+0x31/0x50
[  480.549426]  io_submit_sqes+0x549/0x680
[  480.549429]  __do_sys_io_uring_enter+0x57c/0xbf0
[  480.549431]  ? do_syscall_64+0x8d/0x170
[  480.549434]  ? flush_tlb_func+0x216/0x260
[  480.549436]  __x64_sys_io_uring_enter+0x22/0x40
[  480.549438]  x64_sys_call+0x20b9/0x24b0
[  480.549440]  do_syscall_64+0x81/0x170
[  480.549442]  ? irqentry_exit_to_user_mode+0x7b/0x260
[  480.549444]  ? irqentry_exit+0x43/0x50
[  480.549446]  entry_SYSCALL_64_after_hwframe+0x78/0x80
[  480.549447] RIP: 0033:0x7192ac474b95
[  480.549461] Code: 00 00 00 44 89 d0 41 b9 08 00 00 00 83 c8 10 f6 87 d0 00 00 00 01 8b bf cc 00 00 00 44 0f 45 d0 45 31 c0 b8 aa 01 00 00 0f 05 <c3> 66 2e 0f 1f 84 00 00 00 00 00 41 83 e2 02 74 c2 f0 48 83 0c 24
[  480.549464] RSP: 002b:000071929effaef8 EFLAGS: 00000246 ORIG_RAX: 00000000000001aa
[  480.549466] RAX: ffffffffffffffda RBX: 00007188845fa540 RCX: 00007192ac474b95
[  480.549468] RDX: 0000000000000000 RSI: 0000000000000003 RDI: 0000000000000070
[  480.549469] RBP: 00007188845fa548 R08: 0000000000000000 R09: 0000000000000008
[  480.549471] R10: 0000000000000000 R11: 0000000000000246 R12: 00007188845fa630
[  480.549472] R13: 000071929effaf80 R14: 0000000000000001 R15: 0000000000000000
[  480.549474]  </TASK>
[  480.549475] Modules linked in: veth ebtable_filter ebtables ip_set ip6table_raw ip6table_filter ip6_tables iptable_filter nf_tables iptable_raw xt_CT iptable_nat xt_MASQUERADE nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 bonding tls softdog sunrpc nfnetlink_log binfmt_misc nfnetlink xe drm_gpuvm drm_exec gpu_sched drm_suballoc_helper intel_rapl_msr intel_rapl_common intel_uncore_frequency intel_uncore_frequency_common intel_tcc_cooling x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel i915 kvm drm_buddy cmdlinepart drm_display_helper irqbypass rapl spi_nor cec mtd eeepc_wmi intel_cstate rc_core wmi_bmof ee1004 i2c_algo_bit intel_pmc_core intel_vsec pmt_telemetry pmt_class acpi_tad acpi_pad input_leds serio_raw mac_hid vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 btrfs blake2b_generic raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid0 bochs drm_vram_helper drm_ttm_helper ttm hid_generic usbhid hid raid1 crct10dif_pclmul
[  480.549512]  crc32_pclmul polyval_clmulni polyval_generic ghash_clmulni_intel xhci_pci sha256_ssse3 xhci_pci_renesas nvme mfd_aaeon r8169 sha1_ssse3 psmouse asus_wmi i2c_i801 xhci_hcd realtek ahci spi_intel_pci intel_lpss_pci nvme_core ledtrig_audio i2c_smbus spi_intel intel_lpss sparse_keymap libahci idma64 nvme_auth platform_profile video wmi pinctrl_alderlake aesni_intel crypto_simd cryptd
[  480.549539] CR2: 0000000000000008
[  480.549540] ---[ end trace 0000000000000000 ]---
[  480.632816] RIP: 0010:blk_flush_complete_seq+0x291/0x2d0
[  480.632821] Code: 0f b6 f6 49 8d 56 01 49 c1 e6 04 4d 01 ee 48 c1 e2 04 49 8b 4e 10 4c 01 ea 48 39 ca 74 2b 48 8b 4b 50 48 8b 7b 48 48 8d 73 48 <48> 89 4f 08 48 89 39 49 8b 4e 18 49 89 76 18 48 89 53 48 48 89 4b
[  480.632824] RSP: 0018:ffffaf04c58fba50 EFLAGS: 00010046
[  480.632826] RAX: 0000000000000000 RBX: ffff927659f38600 RCX: ffff927659f38648
[  480.632828] RDX: ffff927653f4e4a0 RSI: ffff927659f38648 RDI: 0000000000000000
[  480.632829] RBP: ffffaf04c58fba90 R08: 0000000000000000 R09: 0000000000000000
[  480.632832] R10: 0000000000000000 R11: 0000000000000000 R12: 0000000000029801
[  480.632833] R13: ffff927653f4e480 R14: ffff927653f4e490 R15: ffff927659c24448
[  480.632835] FS:  000071929f0006c0(0000) GS:ffff92857ed00000(0000) knlGS:0000000000000000
[  480.632836] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  480.632838] CR2: 0000000000000008 CR3: 0000000108c54000 CR4: 0000000000f52ef0
[  480.632839] PKRU: 55555554
[  480.632841] note: kvm[6593] exited with irqs disabled
[  480.632875] note: kvm[6593] exited with preempt_count 1
[  480.632878] ------------[ cut here ]------------
[  480.632880] WARNING: CPU: 2 PID: 6593 at kernel/exit.c:820 do_exit+0x8dd/0xae0
[  480.632883] Modules linked in: veth ebtable_filter ebtables ip_set ip6table_raw ip6table_filter ip6_tables iptable_filter nf_tables iptable_raw xt_CT iptable_nat xt_MASQUERADE nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 bonding tls softdog sunrpc nfnetlink_log binfmt_misc nfnetlink xe drm_gpuvm drm_exec gpu_sched drm_suballoc_helper intel_rapl_msr intel_rapl_common intel_uncore_frequency intel_uncore_frequency_common intel_tcc_cooling x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel i915 kvm drm_buddy cmdlinepart drm_display_helper irqbypass rapl spi_nor cec mtd eeepc_wmi intel_cstate rc_core wmi_bmof ee1004 i2c_algo_bit intel_pmc_core intel_vsec pmt_telemetry pmt_class acpi_tad acpi_pad input_leds serio_raw mac_hid vhost_net vhost vhost_iotlb tap efi_pstore dmi_sysfs ip_tables x_tables autofs4 btrfs blake2b_generic raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid0 bochs drm_vram_helper drm_ttm_helper ttm hid_generic usbhid hid raid1 crct10dif_pclmul
[  480.632934]  crc32_pclmul polyval_clmulni polyval_generic ghash_clmulni_intel xhci_pci sha256_ssse3 xhci_pci_renesas nvme mfd_aaeon r8169 sha1_ssse3 psmouse asus_wmi i2c_i801 xhci_hcd realtek ahci spi_intel_pci intel_lpss_pci nvme_core ledtrig_audio i2c_smbus spi_intel intel_lpss sparse_keymap libahci idma64 nvme_auth platform_profile video wmi pinctrl_alderlake aesni_intel crypto_simd cryptd
[  480.632963] CPU: 2 PID: 6593 Comm: kvm Tainted: G      D            6.8.4-3-pve #1
[  480.632965] Hardware name: ASUS System Product Name/PRIME B760M-A D4, BIOS 9006 02/20/2023
[  480.632969] RIP: 0010:do_exit+0x8dd/0xae0
[  480.632971] Code: e9 42 f8 ff ff 48 8b bb e0 09 00 00 31 f6 e8 9a e0 ff ff e9 ee fd ff ff 4c 89 ee bf 05 06 00 00 e8 08 3a 01 00 e9 6e f8 ff ff <0f> 0b e9 9c f7 ff ff 0f 0b e9 55 f7 ff ff 48 89 df e8 0d 2f 14 00
[  480.632974] RSP: 0018:ffffaf04c58fbec8 EFLAGS: 00010282
[  480.632980] RAX: 0000000000000000 RBX: ffff92765eb48000 RCX: 0000000000000000
[  480.632982] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
[  480.632983] RBP: ffffaf04c58fbf20 R08: 0000000000000000 R09: 0000000000000000
[  480.632984] R10: 0000000000000000 R11: 0000000000000000 R12: ffff92765cc96c00
[  480.632985] R13: 0000000000000009 R14: ffff92765c46f380 R15: 0000000000000000
[  480.632987] FS:  000071929f0006c0(0000) GS:ffff92857ed00000(0000) knlGS:0000000000000000
[  480.632989] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  480.632990] CR2: 0000000000000008 CR3: 0000000108c54000 CR4: 0000000000f52ef0
[  480.632992] PKRU: 55555554
[  480.632993] Call Trace:
[  480.632994]  <TASK>
[  480.632995]  ? show_regs+0x6d/0x80
[  480.632998]  ? __warn+0x89/0x160
[  480.633001]  ? do_exit+0x8dd/0xae0
[  480.633003]  ? report_bug+0x17e/0x1b0
[  480.633007]  ? handle_bug+0x46/0x90
[  480.633010]  ? exc_invalid_op+0x18/0x80
[  480.633012]  ? asm_exc_invalid_op+0x1b/0x20
[  480.633016]  ? do_exit+0x8dd/0xae0
[  480.633018]  ? do_exit+0x72/0xae0
[  480.633020]  ? _printk+0x60/0x90
[  480.633023]  make_task_dead+0x83/0x170
[  480.633028]  rewind_stack_and_make_dead+0x17/0x20
[  480.633052] RIP: 0033:0x7192ac474b95
[  480.633060] Code: 00 00 00 44 89 d0 41 b9 08 00 00 00 83 c8 10 f6 87 d0 00 00 00 01 8b bf cc 00 00 00 44 0f 45 d0 45 31 c0 b8 aa 01 00 00 0f 05 <c3> 66 2e 0f 1f 84 00 00 00 00 00 41 83 e2 02 74 c2 f0 48 83 0c 24
[  480.633063] RSP: 002b:000071929effaef8 EFLAGS: 00000246 ORIG_RAX: 00000000000001aa
[  480.633066] RAX: ffffffffffffffda RBX: 00007188845fa540 RCX: 00007192ac474b95
[  480.633068] RDX: 0000000000000000 RSI: 0000000000000003 RDI: 0000000000000070
[  480.633069] RBP: 00007188845fa548 R08: 0000000000000000 R09: 0000000000000008
[  480.633071] R10: 0000000000000000 R11: 0000000000000246 R12: 00007188845fa630
[  480.633072] R13: 000071929effaf80 R14: 0000000000000001 R15: 0000000000000000
[  480.633074]  </TASK>
[  480.633075] ---[ end trace 0000000000000000 ]---

Bierfassl · May 10, 2024

Have a look here, this should be the main thread on this topic.

https://forum.proxmox.com/posts/662638/

gio2022 · May 13, 2024

Hallo zusammen,
der neue Kernel hat alles gelöst.
Danke

Jens_Le · May 13, 2024

Hallo zusammen,
der neue Kernel hat alles gelöst.
Danke

?

chserver · May 13, 2024

Jens_Le said:
?

Welcher Neue?

lordwebbie · May 16, 2024

Hallo zusammen,
wir betreiben für mehrere Sachen ca. 45 EX101-Server mit Proxmox und kämpfen auch mit den Problemen. Und Hetzner sind die Probleme auch bekannt. Ich möchte gerne unsere Erfahrungen schildern, denn vllt. hilft es jemandem hier. Wir haben auch guten Kontakt zu Hetzner und man will den Problemen dort nachgehen (wurde uns jedenfalls durch unseren Custom Solutions-Ansprechpartner gesagt). Das war aber schon im Februar / März.

Problem 1: Netzwerkkarte
Ja, irgendwann freezed der EX101 und es gibt Fehler (PCI Bus Error usw.). Bezüglich der Netzwerkkarte haben wir mittlerweile aufgegeben und eine zweite NIC von Hetzner mit anderem Chipsatz installieren lassen. Netzwerkkarten-Probleme sind damit vom Tisch und das läuft soweit stabil.
Wir hatten vorher Stundenlang versucht den Fehler durch Last zu provozieren (also viel Traffic, dann auch mal viele TCP Verbindungen, viele UDP-Verbindungen) und es ist uns NICHT gelungen, den Fehler auszulösen. Im Live trat er aber alle paar Stunden bei irgendeinem unserer 45 Server auf.

Problem 2: Instabilität
Wir beobachten, dass einige Applikationen im Hostsystem und in den VMs von Zeit zu Zeit komisches Verhalten an den Tag legen. Es kommt immer wieder zu Segfaults. Erst hatten wir keine Ahnung und dachten, es läge an der Software oder am verwendeten Memory.
Denn auf einigen EX101 scheint alles reibungslos zu laufen, auf anderen kommt es immer wieder zu komischen Vorkommnissen, obwohl alle Server gleiche Software-Stände haben. Mit "komische Vorkommnisse" meine ich, dass wir AB UND ZU beim Starten von VMs Segfaults oder andere Fehlermeldungen haben. Wir hatten sogar schon einen EX101, auf dem war das Problem so stark, dass wir ihn fünf Mal (automatisiert) neuinstalliert haben und nur eine Installation ist korrekt durchgelaufen. Gerne hing das betroffene System sich z.B. beim Entpacken von Paketen im apt auf.

Nunja, das was jetzt kommt, hört sich etwas verrückt an. Aber wir haben mittlerweile halbwegs ein Indiz dafür, dass wir eine Hardware erwischt haben, mit der etwas nicht stimmt:
- Server frisch installieren mit Proxmox (Wir nutzen installimage für die Basisinstallation und das von Hetzner für installimage bereitgestellte Proxmox-Installationskript)
- Auf dem installierten Proxmox-Host dann Puppet installieren (egal, ob ein Puppet-Server vorhanden ist oder nicht, lest einfach weiter...).
- Über die nächsten Stunden hunderte Male "puppet --help" oder "puppet agent --help" ausführen (wir haben dafür ein Script gebaut). Meist klappt es, sehr selten kommen dann Segfaults (1-2 Mal pro hundert Durchläufe). Manchmal hat man auch Phasen, in denen überhaupt nichts auftritt. Aber wenn man es oft genug versucht, kommt es ab und an.
Warum genau puppet diese Fehler auslöst? - Keine Ahnung.

So. Und warum denken wir, dass gerade das Problem 2 an der Hardware liegt? - Ganz einfach: Wir lassen auf allen 45 Servern von Zeit zu Zeit immer wieder "puppet agent --help" zweihundert Mal ausführen. Die Server, die auffällig sind (und das sind immer wieder die gleichen Sorgenkinder), lassen wir dann von Hetzner Hardware-Tauschen. Manchmal war das Problem weg, manchmal nicht. Also haben wir uns die Unterschiede dazwischen angesehen und festgestellt, dass Hetzner den EX101 mit unterschiedlichen Mainboards betreibt. Die Fehler sind uns bisher immer nur auf Mainboards von "ASUSTeK" begegnet und noch nie auf Mainboards von "ASRock". Wir bitten Hetzner nun also immer, ein ASRock-Mainboard zu verwenden. Bislang haben wir damit keinerlei Probleme (hoffentlich bleibt es so - ich melde mich, falls wir etwas anderes bemerken).

Achso: Bevor jemand fragt: Wir haben teils unkritische und teils redundanten Workload auf den Servern. Deswegen macht es nichts, wenn mal einer Abraucht, da nehmen wir lieber die gute Preis/Leistung mit. Inzwischen haben wir auch alle absoluten "Sorgenkinder" durch HW-Täusche in den Griff bekommen...

Achso 2: Wenn das Proxmox-Team sich das mal anschauen möchte, helfen wir gerne beim Debugging, wenn das gewünscht ist. (z.B. Host zum Debugging bereitstellen, Debugging betreiben, Fixes testen, ... egal)

Viele Grüße

Proxmox freeze nach kernel update to 6.8.4-2-pve

New Member

Active Member

New Member

Member

New Member

Member

Member

New Member

Member

Active Member

Member

Distinguished Member

Active Member

Member

New Member

New Member

Member

Well-Known Member

New Member

New Member

We value your privacy