Proxmox Kernel Bug

gustel · Sep 14, 2022

Hallo liebe Community,

ich habe ein Problem mit meinem PVE (V7.2-7).
Seit einiger Zeit läuft einer meiner Server nicht mehr richtig.
Ich hatte ein Cluster aus 3 Nodes, 2x Minisforum HM90 und 1x in einer VM.
Mein PVE1 stieg eines Tages aus, teils war die Oberfläche noch erreichbar mit ? im Rechenzentrum und manchmal war der PVE nicht mehr erreichbar.
Abhilfe schaffte in beiden Fällen nur noch am PC ausschalten.
Was ich herausgefunden habe, dass pvestatd hängt, wenn mir Uptime-Kuma rechtzeitig eine Nachricht schickte, konnte ich mit einem pvestatd restart das ganze wieder zum Laufen bringen.
Kurz zur Hardware;
1x NVME SSD + 1x SSD im ZFS-Mirror
1x 32 GB RAM

Folgendes habe ich nach dem Auflösen des Clusters leider ohne Erfolg ausprobiert;

PVE mit der Version 7.2 neu installiert
PVE mit der Version 7.1 neu installiert
Kernel downgrade von 5.15.53-1 auf 5.13.19-2
Installation von PVE nur auf der NVME SSD (aktueller Stand)
Memtest86 über 25 Std. ohne Fehler
Smartctl zeigt keine Fehler bei beiden SSD´s

Im Syslog bekomme ich folgende Fehler...

Sep 14 03:10:01 pve1 CRON[416351]: (root) CMD (test -e /run/systemd/system || SERVICE_MODE=1 /sbin/e2scrub_all -A -r)
Sep 14 03:10:01 pve1 CRON[416350]: pam_unix(cron:session): session closed for user root
Sep 14 03:17:01 pve1 CRON[419211]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Sep 14 03:17:01 pve1 CRON[419212]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Sep 14 03:17:01 pve1 CRON[419211]: pam_unix(cron:session): session closed for user root
Sep 14 04:17:01 pve1 CRON[443694]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Sep 14 04:17:01 pve1 CRON[443695]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Sep 14 04:17:01 pve1 CRON[443694]: pam_unix(cron:session): session closed for user root
Sep 14 04:32:55 pve1 kernel: BUG: unable to handle page fault for address: ffffffff8b4cb014
Sep 14 04:32:55 pve1 kernel: #PF: supervisor write access in kernel mode
Sep 14 04:32:55 pve1 kernel: #PF: error_code(0x0003) - permissions violation
Sep 14 04:32:55 pve1 kernel: PGD 5fc415067 P4D 5fc415067 PUD 5fc416063 PMD 5fa8001e1
Sep 14 04:32:55 pve1 kernel: Oops: 0003 [#1] SMP NOPTI
Sep 14 04:32:55 pve1 kernel: CPU: 6 PID: 450224 Comm: ps Tainted: P O 5.15.53-1-pve #1
Sep 14 04:32:55 pve1 kernel: Hardware name: BESSTAR TECH LIMITED HM90/HM90, BIOS 5.16 10/13/2021
Sep 14 04:32:55 pve1 kernel: RIP: 0010:apparmor_ptrace_access_check+0x7a/0x1a0
Sep 14 04:32:55 pve1 kernel: Code: 8c f0 fe ff 83 fb 01 4c 89 e7 19 d2 48 89 c6 49 89 c5 83 e2 fe 83 c2 04 e8 93 fc fe ff 41 89 c7 4d 85 ed 74 1c b8 ff ff ff ff <f0> 41 0f c1 45 00 83 f8 01 0f 84 9e 00 00 00 85 c0 0f 8e a3 00 00
Sep 14 04:32:55 pve1 kernel: RSP: 0018:ffffb27a86f13b88 EFLAGS: 00010286
Sep 14 04:32:55 pve1 kernel: RAX: 00000000ffffffff RBX: 0000000000000001 RCX: 0000000000000000
Sep 14 04:32:55 pve1 kernel: RDX: 0000000000000004 RSI: ffff93f5400536b8 RDI: 0000000000000000
Sep 14 04:32:55 pve1 kernel: RBP: ffffb27a86f13bb0 R08: 0000000000000001 R09: 0000000000000001
Sep 14 04:32:55 pve1 kernel: R10: 000000000000000b R11: 0000000000000000 R12: ffff93f5400536b8
Sep 14 04:32:55 pve1 kernel: R13: ffffffff8b4cb014 R14: 0000000000000001 R15: 0000000000000000
Sep 14 04:32:55 pve1 kernel: FS: 00007f37399b37c0(0000) GS:ffff93fc2f780000(0000) knlGS:0000000000000000
Sep 14 04:32:55 pve1 kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Sep 14 04:32:55 pve1 kernel: CR2: ffffffff8b4cb014 CR3: 000000016a810000 CR4: 0000000000350ee0
Sep 14 04:32:55 pve1 kernel: Call Trace:
Sep 14 04:32:55 pve1 kernel: <TASK>
Sep 14 04:32:55 pve1 kernel: security_ptrace_access_check+0x2f/0x50
Sep 14 04:32:55 pve1 kernel: __ptrace_may_access+0xdc/0x160
Sep 14 04:32:55 pve1 kernel: ptrace_may_access+0x2f/0x50
Sep 14 04:32:55 pve1 kernel: do_task_stat+0x97/0xd70
Sep 14 04:32:55 pve1 kernel: ? mod_objcg_state+0x185/0x340
Sep 14 04:32:55 pve1 kernel: ? kvmalloc_node+0x28/0xa0
Sep 14 04:32:55 pve1 kernel: ? memcg_slab_post_alloc_hook+0x19e/0x210
Sep 14 04:32:55 pve1 kernel: proc_tgid_stat+0x14/0x20
Sep 14 04:32:55 pve1 kernel: proc_single_show+0x52/0xc0
Sep 14 04:32:55 pve1 kernel: seq_read_iter+0x126/0x4b0
Sep 14 04:32:55 pve1 kernel: seq_read+0xfd/0x150
Sep 14 04:32:55 pve1 kernel: vfs_read+0xa0/0x1a0
Sep 14 04:32:55 pve1 kernel: ksys_read+0x67/0xf0
Sep 14 04:32:55 pve1 kernel: __x64_sys_read+0x1a/0x20
Sep 14 04:32:55 pve1 kernel: do_syscall_64+0x5c/0xc0
Sep 14 04:32:55 pve1 kernel: ? __x64_sys_close+0x12/0x50
Sep 14 04:32:55 pve1 kernel: ? do_syscall_64+0x69/0xc0
Sep 14 04:32:55 pve1 kernel: ? do_syscall_64+0x69/0xc0
Sep 14 04:32:55 pve1 kernel: ? do_syscall_64+0x69/0xc0
Sep 14 04:32:55 pve1 kernel: entry_SYSCALL_64_after_hwframe+0x61/0xcb
Sep 14 04:32:55 pve1 kernel: RIP: 0033:0x7f3739df384e
Sep 14 04:32:55 pve1 kernel: Code: c0 e9 b6 fe ff ff 50 48 8d 3d 2e 04 0b 00 e8 a9 fd 01 00 66 0f 1f 84 00 00 00 00 00 64 8b 04 25 18 00 00 00 85 c0 75 14 0f 05 <48> 3d 00 f0 ff ff 77 5a c3 66 0f 1f 84 00 00 00 00 00 48 83 ec 28
Sep 14 04:32:55 pve1 kernel: RSP: 002b:00007ffc1af4e6f8 EFLAGS: 00000246 ORIG_RAX: 0000000000000000
Sep 14 04:32:55 pve1 kernel: RAX: ffffffffffffffda RBX: 00007f3739ef7690 RCX: 00007f3739df384e
Sep 14 04:32:55 pve1 kernel: RDX: 0000000000000800 RSI: 000055de2d3c1b50 RDI: 0000000000000006
Sep 14 04:32:55 pve1 kernel: RBP: 0000000000000006 R08: 00000000ffffffff R09: 00007ffc1af4e580
Sep 14 04:32:55 pve1 kernel: R10: 0000000000000000 R11: 0000000000000246 R12: 0000000000000000
Sep 14 04:32:55 pve1 kernel: R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000
Sep 14 04:32:55 pve1 kernel: </TASK>
Sep 14 04:32:55 pve1 kernel: Modules linked in: tcp_diag inet_diag ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter bpfilter nf_tables 8021q garp mrp bonding tls softdog nfnetlink_log nfnetlink intel_rapl_msr intel_rapl_common edac_mce_amd amdgpu kvm_amd kvm snd_hda_codec_hdmi irqbypass crct10dif_pclmul iommu_v2 ghash_clmulni_intel gpu_sched drm_ttm_helper snd_usb_audio mt7921e aesni_intel snd_hda_intel snd_intel_dspcfg crypto_simd ttm joydev btusb mt76_connac_lib input_leds snd_usbmidi_lib snd_intel_sdw_acpi cryptd btrtl snd_hda_codec mt76 drm_kms_helper snd_rawmidi btbcm rapl snd_seq_device snd_hda_core snd_pci_acp6x btintel mc mac80211 cec snd_pci_acp5x snd_hwdep snd_pcm bluetooth rc_core i2c_algo_bit snd_timer k10temp efi_pstore pcspkr snd_rn_pci_acp3x ecdh_generic cfg80211 fb_sys_fops ecc snd syscopyarea snd_pci_acp3x sysfillrect sysimgblt soundcore libarc4 ccp cm32181 industrialio mac_hid vhost_net vhost vhost_iotlb tap ib_iser rdma_cm iw_cm ib_cm
Sep 14 04:32:55 pve1 kernel: ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi drm sunrpc ip_tables x_tables autofs4 zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) btrfs blake2b_generic xor zstd_compress raid6_pq libcrc32c simplefb usbmouse usbkbd hid_cmedia hid_generic usbhid xhci_pci crc32_pclmul ahci xhci_pci_renesas i2c_piix4 libahci nvme amd_sfh xhci_hcd igc r8169 realtek nvme_core video i2c_hid_acpi i2c_hid hid
Sep 14 04:32:55 pve1 kernel: CR2: ffffffff8b4cb014
Sep 14 04:32:55 pve1 kernel: ---[ end trace 7bdf863b152cf802 ]---
Sep 14 04:32:55 pve1 kernel: RIP: 0010:apparmor_ptrace_access_check+0x7a/0x1a0
Sep 14 04:32:55 pve1 kernel: Code: 8c f0 fe ff 83 fb 01 4c 89 e7 19 d2 48 89 c6 49 89 c5 83 e2 fe 83 c2 04 e8 93 fc fe ff 41 89 c7 4d 85 ed 74 1c b8 ff ff ff ff <f0> 41 0f c1 45 00 83 f8 01 0f 84 9e 00 00 00 85 c0 0f 8e a3 00 00
Sep 14 04:32:55 pve1 kernel: RSP: 0018:ffffb27a86f13b88 EFLAGS: 00010286
Sep 14 04:32:55 pve1 kernel: RAX: 00000000ffffffff RBX: 0000000000000001 RCX: 0000000000000000
Sep 14 04:32:55 pve1 kernel: RDX: 0000000000000004 RSI: ffff93f5400536b8 RDI: 0000000000000000
Sep 14 04:32:55 pve1 kernel: RBP: ffffb27a86f13bb0 R08: 0000000000000001 R09: 0000000000000001
Sep 14 04:32:55 pve1 kernel: R10: 000000000000000b R11: 0000000000000000 R12: ffff93f5400536b8
Sep 14 04:32:55 pve1 kernel: R13: ffffffff8b4cb014 R14: 0000000000000001 R15: 0000000000000000
Sep 14 04:32:55 pve1 kernel: FS: 00007f37399b37c0(0000) GS:ffff93fc2f780000(0000) knlGS:0000000000000000
Sep 14 04:32:55 pve1 kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Sep 14 04:32:55 pve1 kernel: CR2: ffffffff8b4cb014 CR3: 000000016a810000 CR4: 0000000000350ee0
Sep 14 04:33:25 pve1 kernel: watchdog: BUG: soft lockup - CPU#4 stuck for 26s! [pvestatd:1970]
Sep 14 04:33:25 pve1 kernel: Modules linked in: tcp_diag inet_diag ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter bpfilter nf_tables 8021q garp mrp bonding tls softdog nfnetlink_log nfnetlink intel_rapl_msr intel_rapl_common edac_mce_amd amdgpu kvm_amd kvm snd_hda_codec_hdmi irqbypass crct10dif_pclmul iommu_v2 ghash_clmulni_intel gpu_sched drm_ttm_helper snd_usb_audio mt7921e aesni_intel snd_hda_intel snd_intel_dspcfg crypto_simd ttm joydev btusb mt76_connac_lib input_leds snd_usbmidi_lib snd_intel_sdw_acpi cryptd btrtl snd_hda_codec mt76 drm_kms_helper snd_rawmidi btbcm rapl snd_seq_device snd_hda_core snd_pci_acp6x btintel mc mac80211 cec snd_pci_acp5x snd_hwdep snd_pcm bluetooth rc_core i2c_algo_bit snd_timer k10temp efi_pstore pcspkr snd_rn_pci_acp3x ecdh_generic cfg80211 fb_sys_fops ecc snd syscopyarea snd_pci_acp3x sysfillrect sysimgblt soundcore libarc4 ccp cm32181 industrialio mac_hid vhost_net vhost vhost_iotlb tap ib_iser rdma_cm iw_cm ib_cm
Sep 14 04:33:25 pve1 kernel: ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi drm sunrpc ip_tables x_tables autofs4 zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) btrfs blake2b_generic xor zstd_compress raid6_pq libcrc32c simplefb usbmouse usbkbd hid_cmedia hid_generic usbhid xhci_pci crc32_pclmul ahci xhci_pci_renesas i2c_piix4 libahci nvme amd_sfh xhci_hcd igc r8169 realtek nvme_core video i2c_hid_acpi i2c_hid hid
Sep 14 04:33:25 pve1 kernel: CPU: 4 PID: 1970 Comm: pvestatd Tainted: P D O 5.15.53-1-pve #1
Sep 14 04:33:25 pve1 kernel: Hardware name: BESSTAR TECH LIMITED HM90/HM90, BIOS 5.16 10/13/2021
Sep 14 04:33:25 pve1 kernel: RIP: 0010:native_queued_spin_lock_slowpath+0x79/0x240
Sep 14 04:33:25 pve1 kernel: Code: 2b 08 0f 92 c0 0f b6 c0 c1 e0 08 89 c2 8b 03 30 e4 09 d0 a9 00 01 ff ff 0f 85 13 01 00 00 85 c0 74 0e 8b 03 84 c0 74 08 f3 90 <8b> 03 84 c0 75 f8 b8 01 00 00 00 66 89 03 5b 41 5c 41 5d 41 5e 41
Sep 14 04:33:25 pve1 kernel: RSP: 0018:ffffb27a9424fd30 EFLAGS: 00000202
Sep 14 04:33:25 pve1 kernel: RAX: 0000000000000101 RBX: ffff93f5557af038 RCX: ffffb27a9424fe48

Memtest86..

smartctl...

root@pve1:~# smartctl -a /dev/nvme0n1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.53-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 970 EVO Plus 1TB
Serial Number: S6P7NG0R631117M
Firmware Version: 3B2QEXM7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 6
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization: 53,039,779,840 [53.0 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5611515abf
Local Time is: Wed Sep 14 13:38:48 2022 CEST
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0057): Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f): S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 128 Pages
Warning Comp. Temp. Threshold: 82 Celsius
Critical Comp. Temp. Threshold: 85 Celsius

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 7.54W - - 0 0 0 0 0 0
1 + 7.54W - - 1 1 1 1 0 200
2 + 7.54W - - 2 2 2 2 0 1000
3 - 0.0500W - - 3 3 3 3 2000 1200
4 - 0.0050W - - 4 4 4 4 500 9500

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 43 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 5%
Data Units Read: 58,154,539 [29.7 TB]
Data Units Written: 76,309,562 [39.0 TB]
Host Read Commands: 1,715,213,497
Host Write Commands: 2,086,121,001
Controller Busy Time: 5,950
Power Cycles: 212
Power On Hours: 3,175
Unsafe Shutdowns: 122
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 1
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 43 Celsius
Temperature Sensor 2: 42 Celsius
Thermal Temp. 1 Transition Count: 4
Thermal Temp. 2 Transition Count: 1
Thermal Temp. 1 Total Time: 446
Thermal Temp. 2 Total Time: 103

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

Proxmox Version

root@pve1:~# pveversion -v
proxmox-ve: 7.2-1 (running kernel: 5.15.53-1-pve)
pve-manager: 7.2-7 (running version: 7.2-7/d0dd0e85)
pve-kernel-5.15: 7.2-10
pve-kernel-5.15.53-1-pve: 5.15.53-1
pve-kernel-5.15.30-2-pve: 5.15.30-3
ceph-fuse: 15.2.16-pve1
corosync: 3.1.5-pve2
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve1
libproxmox-acme-perl: 1.4.2
libproxmox-backup-qemu0: 1.3.1-1
libpve-access-control: 7.2-4
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.2-2
libpve-guest-common-perl: 4.1-2
libpve-http-server-perl: 4.1-3
libpve-storage-perl: 7.2-8
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.0-3
lxcfs: 4.0.12-pve1
novnc-pve: 1.3.0-3
proxmox-backup-client: 2.2.5-1
proxmox-backup-file-restore: 2.2.5-1
proxmox-mini-journalreader: 1.3-1
proxmox-widget-toolkit: 3.5.1
pve-cluster: 7.2-2
pve-container: 4.2-2
pve-docs: 7.2-2
pve-edk2-firmware: 3.20220526-1
pve-firewall: 4.2-6
pve-firmware: 3.5-1
pve-ha-manager: 3.4.0
pve-i18n: 2.7-2
pve-qemu-kvm: 7.0.0-3
pve-xtermjs: 4.16.0-1
qemu-server: 7.2-4
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.7.1~bpo11+1
vncterm: 1.7-1
zfsutils-linux: 2.1.5-pve1

Da beide HM90 bis auf die NVME identisch sind aber der Fehler nur auf einen auftritt befürchte ich fast, das es an dem HM90 liegt.

Ich hoffe ihr könnt mir weiterhelfen

Gruß Frank

gustel · Sep 14, 2022

Nachtrag...
Das System läuft manchmal einen Tag, manchmal aber auch nur 2-3 Stunden stabil.
In der Shell bekomme ich dann alle ca. 20 Sek. folgende Meldung.

Message from syslogd@pve1 at Sep 14 13:28:33 ...
kernel:[93840.363588] watchdog: BUG: soft lockup - CPU#4 stuck for 29929s! [pvestatd:1970]

Message from syslogd@pve1 at Sep 14 13:28:37 ...
kernel:[93844.383588] watchdog: BUG: soft lockup - CPU#12 stuck for 29881s! [ps:450630]

Message from syslogd@pve1 at Sep 14 13:29:01 ...
kernel:[93868.363589] watchdog: BUG: soft lockup - CPU#4 stuck for 29955s! [pvestatd:1970]

Message from syslogd@pve1 at Sep 14 13:29:05 ...
kernel:[93872.383589] watchdog: BUG: soft lockup - CPU#12 stuck for 29907s! [ps:450630]

Message from syslogd@pve1 at Sep 14 13:29:29 ...
kernel:[93896.363590] watchdog: BUG: soft lockup - CPU#4 stuck for 29981s! [pvestatd:1970]

Message from syslogd@pve1 at Sep 14 13:29:33 ...
kernel:[93900.383588] watchdog: BUG: soft lockup - CPU#12 stuck for 29933s! [ps:450630]

Message from syslogd@pve1 at Sep 14 13:29:57 ...
kernel:[93924.363588] watchdog: BUG: soft lockup - CPU#4 stuck for 30007s! [pvestatd:1970]

Message from syslogd@pve1 at Sep 14 13:30:01 ...
kernel:[93928.383589] watchdog: BUG: soft lockup - CPU#12 stuck for 29959s! [ps:450630]

Message from syslogd@pve1 at Sep 14 13:30:25 ...
kernel:[93952.363586] watchdog: BUG: soft lockup - CPU#4 stuck for 30033s! [pvestatd:1970]

Message from syslogd@pve1 at Sep 14 13:30:29 ...
kernel:[93956.383588] watchdog: BUG: soft lockup - CPU#12 stuck for 29985s! [ps:450630]

Message from syslogd@pve1 at Sep 14 13:30:53 ...
kernel:[93980.363588] watchdog: BUG: soft lockup - CPU#4 stuck for 30060s! [pvestatd:1970]

Message from syslogd@pve1 at Sep 14 13:30:57 ...
kernel:[93984.383588] watchdog: BUG: soft lockup - CPU#12 stuck for 30011s! [ps:450630]

Sollte noch etwas fehlen, reiche ich es gerne nach.

Gruß Frank

Neobin · Sep 14, 2022

Bios/UEFI ist aktuell? Firmware der SSDs auch?
Du könntest noch den ganz frisch erschienenen Opt-In Kernel probieren: [1].
Und das AMD-Microcode-Paket installieren: [2].

Ansonsten fällt mir leider auch nichts mehr ein, sorry.

[1] https://forum.proxmox.com/threads/opt-in-linux-5-19-kernel-for-proxmox-ve-7-x-available.115090
[2] https://wiki.debian.org/Microcode

gustel · Sep 14, 2022

Hallo Neobin,

Bios/UEFI ist auf dem aktuellen Stand.
Zumindest konnte ich keine Updates finden.
Bei der SSD bekomme folgende Meldung..

root@pve1:~# fwupdmgr get-devices
HM90
│
└─Samsung SSD 970 EVO Plus 1TB:
Device ID: 71b677ca0f1bc2c5b804fa1d59e52064ce589293
Summary: NVM Express Solid State Drive
Current version: 3B2QEXM7
Vendor: Samsung Electronics Co Ltd (NVME:0x144D)
Serial Number: S6P7NG0R631117M
GUIDs: 0b4d773a-7ac3-58c1-a541-e22ef1cdfe02 ← NVME\VEN_144D&DEV_A808&SUBSYS_144DA801&REV_00
c9d531ea-ee7d-5562-8def-c64d0d144813 ← NVME\VEN_144D&DEV_A808&SUBSYS_144DA801
6e54c992-d302-59ab-b454-2d26ddd63e6d ← NVME\VEN_144D&DEV_A808&REV_00
47335265-a509-51f7-841e-1c94911af66b ← NVME\VEN_144D&DEV_A808
f05ecac9-5cc2-5f77-b23b-a08ad8879ada ← Samsung SSD 970 EVO Plus 1TB
Device Flags: • Internal device
• Updatable
• System requires external power source
• Needs a reboot after installation
• Device is usable for the duration of the update

root@pve1:~# fwupdmgr refresh --force
Updating lvfs
Downloading… [***************************************]
Successfully downloaded new metadata: 0 local devices supported
root@pve1:~# fwupdmgr update
Devices with no available firmware updates:
• Samsung SSD 970 EVO Plus 1TB
No updatable devices

Dann versuche ich einmal deine 2 Vorschläge.

Gruß Frank

Neobin · Sep 14, 2022

Firmware besser direkt vom Hersteller holen: [1]. Dort unter "Firmware" die ISO für deine "970 EVO Plus" und den "NVMe SSD-Firmware Installation Guide" herunterladen und befolgen. (Kann sein, dass du zum Booten der ISO bzw. damit er die SSD erkennt, im Bios CSM/Legacy Boot aktivieren musst.)
Die andere SSD auch mal überprüfen zwecks Firmware-Stand oder ist die aktuell gar nicht erst angeschlossen?

[1] https://semiconductor.samsung.com/consumer-storage/support/tools

gustel · Sep 14, 2022

Hallo,
ok, dann versuche ich das einmal.
Die normale SSD ist aktuell ausgebaut.
Ich habe das AMD-Microcode-Paket installiert und warte einmal ab was passiert.

Update;
NVME ist jetzt auf dem neusten Stand!!

gustel · Sep 15, 2022

Guten Morgen zusammen,
die Updates haben leider nicht geholfen.
Heute Nacht ist er wieder ausgestiegen.

Sep 15 02:52:11 pve1 pveproxy[2057]: worker 234467 finished
Sep 15 02:52:11 pve1 pveproxy[2057]: starting 1 worker(s)
Sep 15 02:52:12 pve1 pveproxy[2057]: worker 258888 started
Sep 15 03:01:20 pve1 pvedaemon[221347]: <root@pam> successful auth for user 'root@pam'
Sep 15 03:06:22 pve1 pveproxy[242039]: worker exit
Sep 15 03:06:22 pve1 pveproxy[2057]: worker 242039 finished
Sep 15 03:06:22 pve1 pveproxy[2057]: starting 1 worker(s)
Sep 15 03:06:22 pve1 pveproxy[2057]: worker 264708 started
Sep 15 03:08:06 pve1 pvedaemon[221347]: <root@pam> successful auth for user 'root@pam'
Sep 15 03:10:01 pve1 CRON[266201]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Sep 15 03:10:01 pve1 CRON[266202]: (root) CMD (test -e /run/systemd/system || SERVICE_MODE=1 /sbin/e2scrub_all -A -r)
Sep 15 03:10:01 pve1 CRON[266201]: pam_unix(cron:session): session closed for user root
Sep 15 03:17:01 pve1 CRON[269076]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Sep 15 03:17:01 pve1 CRON[269077]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Sep 15 03:17:01 pve1 CRON[269076]: pam_unix(cron:session): session closed for user root
Sep 15 04:17:01 pve1 CRON[293119]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Sep 15 04:17:01 pve1 CRON[293120]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Sep 15 04:17:01 pve1 CRON[293119]: pam_unix(cron:session): session closed for user root
Sep 15 04:44:27 pve1 systemd[1]: Starting Daily apt download activities...
Sep 15 04:44:27 pve1 systemd[1]: apt-daily.service: Succeeded.
Sep 15 04:44:27 pve1 systemd[1]: Finished Daily apt download activities.
-- Reboot --
Sep 15 09:34:32 pve1 kernel: Linux version 5.15.53-1-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PVE 5.15.53-1 (Fri, 26 Aug 2022 16:53:52 +0200) ()
Sep 15 09:34:32 pve1 kernel: Command line: initrd=\EFI\proxmox\5.15.53-1-pve\initrd.img-5.15.53-1-pve root=ZFS=rpool/ROOT/pve-1 boot=zfs
Sep 15 09:34:32 pve1 kernel: KERNEL supported cpus:
Sep 15 09:34:32 pve1 kernel: Intel GenuineIntel

Was ich komisch finde, der PC steigt fast immer zwischen 4:00 und 5:00 Uhr aus.
Ich installiere jetzt einmal den Opt-In Kernel.

Gruß Frank

gustel · Sep 15, 2022

kurzes Update,
gerade eben ist er wieder ausgestiegen.

Code:

root@pve1:~# service pvestatd status
● pvestatd.service - PVE Status Daemon
     Loaded: loaded (/lib/systemd/system/pvestatd.service; enabled; vendor preset: enabled)
     Active: failed (Result: signal) since Thu 2022-09-15 10:48:53 CEST; 33min ago
    Process: 2013 ExecStart=/usr/bin/pvestatd start (code=exited, status=0/SUCCESS)
   Main PID: 2039 (code=killed, signal=SEGV)
        CPU: 9.106s

Sep 15 09:52:43 pve1 systemd[1]: Starting PVE Status Daemon...
Sep 15 09:52:43 pve1 pvestatd[2039]: starting server
Sep 15 09:52:43 pve1 systemd[1]: Started PVE Status Daemon.
Sep 15 10:48:53 pve1 systemd[1]: pvestatd.service: Main process exited, code=killed, status=11/SEGV
Sep 15 10:48:53 pve1 systemd[1]: pvestatd.service: Failed with result 'signal'.
Sep 15 10:48:53 pve1 systemd[1]: pvestatd.service: Consumed 9.106s CPU time.

Der neue Kernel hat scheinbar auch nicht geholfen.
Hat noch jemand eine Idee?

Gruß Frank

ITT · Sep 15, 2022

Wie ist die Memory-Auslastung?
32GB mit ZFS ist gelinde gesagt "knapp"

gustel · Sep 15, 2022

Hallo ITT,
so gut wie nichts, auf dem PVE sind keine LXC´s oder VM´s drauf

15-09-2022 12_42_48-pve1 - Proxmox Virtual Environment – Mozilla Firefox.png

Auf meinem zweiten PVE ist es natürlich etwas anderes

15-09-2022 12_44_52-pve2 - Proxmox Virtual Environment – Mozilla Firefox.png

Das Cluster hat bis vor 2 Wochen auch ohne Probleme funktioniert.

PS: ok, die Auslastung des RAM´s war mir schon immer ein Dorn im Auge, übermorgen kommen nach einmal je 32GB.

Neobin · Sep 15, 2022

Weitere Idee: Die NVMe ausbauen und die SATA SSD wieder rein und darauf PVE installieren; einfach nur um die NVMe auszuschließen.

Allerletzte Idee: Mit Windows (eher 10, nicht 11) probieren, wie er sich da verhält.

gustel · Sep 15, 2022

Neobin said:
Weitere Idee: Die NVMe ausbauen und die SATA SSD wieder rein und darauf PVE installieren; einfach nur um die NVMe auszuschließen.

ok, mache ich. (inkl. amd64-microcode)

gustel · Sep 16, 2022

Guten Abend,

pvestatd hat sich mittlerweile wieder aufgehängt.

Code:

Last login: Fri Sep 16 01:01:42 2022
root@pve1:~# service pvestatd status
● pvestatd.service - PVE Status Daemon
     Loaded: loaded (/lib/systemd/system/pvestatd.service; enabled; vendor preset: enabled)
     Active: failed (Result: signal) since Fri 2022-09-16 00:39:41 CEST; 22min ago
    Process: 1572 ExecStart=/usr/bin/pvestatd start (code=exited, status=0/SUCCESS)
   Main PID: 1590 (code=killed, signal=SEGV)
        CPU: 1min 32.000s

Sep 15 13:40:59 pve1 systemd[1]: Starting PVE Status Daemon...
Sep 15 13:40:59 pve1 pvestatd[1590]: starting server
Sep 15 13:40:59 pve1 systemd[1]: Started PVE Status Daemon.
Sep 16 00:39:41 pve1 systemd[1]: pvestatd.service: Main process exited, code=killed, status=11/SEGV
Sep 16 00:39:41 pve1 systemd[1]: pvestatd.service: Failed with result 'signal'.
Sep 16 00:39:41 pve1 systemd[1]: pvestatd.service: Consumed 1min 32.000s CPU time.

syslog;

Code:

Sep 16 00:09:47 pve1 pvedaemon[1615]: <root@pam> successful auth for user 'root@pam'
Sep 16 00:17:01 pve1 CRON[267913]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Sep 16 00:17:01 pve1 CRON[267914]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Sep 16 00:17:01 pve1 CRON[267913]: pam_unix(cron:session): session closed for user root
Sep 16 00:24:48 pve1 pvedaemon[1615]: <root@pam> successful auth for user 'root@pam'
Sep 16 00:34:29 pve1 pveproxy[235066]: worker exit
Sep 16 00:34:29 pve1 pveproxy[1711]: worker 235066 finished
Sep 16 00:34:29 pve1 pveproxy[1711]: starting 1 worker(s)
Sep 16 00:34:29 pve1 pveproxy[1711]: worker 275149 started
Sep 16 00:39:41 pve1 kernel: pvestatd[1590]: segfault at 22 ip 0000559ae38120ba sp 00007ffdfdb03ef0 error 4 in perl[559ae374f000+185000]
Sep 16 00:39:41 pve1 kernel: Code: 03 89 2a 4c 8b 83 c0 00 00 00 49 8b 40 10 48 8b 70 28 48 85 f6 0f 84 85 00 00 00 48 89 df e8 4d dd ff ff 48 8b 43 08 48 8b 2b <0f> b6 50 22 e9 15 ff ff ff 0f 1f 44 00 00 48 8b 43 10 48 63 4b 30
Sep 16 00:39:41 pve1 systemd[1]: pvestatd.service: Main process exited, code=killed, status=11/SEGV
Sep 16 00:39:41 pve1 systemd[1]: pvestatd.service: Failed with result 'signal'.
Sep 16 00:39:41 pve1 systemd[1]: pvestatd.service: Consumed 1min 32.000s CPU time.
Sep 16 00:39:49 pve1 pvedaemon[1615]: <root@pam> successful auth for user 'root@pam'
Sep 16 00:40:57 pve1 smartd[1143]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 69 to 70
Sep 16 00:54:50 pve1 pvedaemon[1615]: <root@pam> successful auth for user 'root@pam'
Sep 16 01:01:36 pve1 pvedaemon[1612]: <root@pam> successful auth for user 'root@pam'

Ich habe jetzt den Opt-In Kernel installiert, mal schauen wie es weiter geht.....

ITT · Sep 16, 2022

Ich tippe da eher auf Hardwareproblem -> im Sinne von Powersettings im BIOS oder einfach generell (Thema AMD, einfach mal im Forum suchen).
Einfach mal eine andere Hardware testen und staunen.

Edit: Allerdings will ich keinen seinen "Basteltrieb" absprechen

gustel · Sep 16, 2022

Hallo ITT,
ich habe 2x HM90, die bis auf die NVMe identisch aufgebaut sind.
Mein Cluster hatte die letzten Monate keinerlei Probleme.

ITT said:
Powersettings im BIOS

Dann vergleiche ich mal die Einstellungen im Bios.

ITT said:
Einfach mal eine andere Hardware testen und staunen.

Mit dem nötigen Kleingeld wäre das kein Problem

Die zwei Kollegen sind kein Jahr alt

ITT · Sep 16, 2022

Ist halt ein bisschen ein Ratespiel

Ich tippe (Glaskugelmodus) auf Powersettings BIOS/PVE, du wärst nicht der erste den sowas widerfährt...
Hab auf die Schnelle nur Proxmox stürzt ab mit Ryzen 5000 und Powersace Covernor gefunden.
Vielleicht kann man ja da was ableiten bzw. auf neue Ideen kommen?

gustel · Sep 16, 2022

ITT said:
Ich tippe (Glaskugelmodus) auf Powersettings BIOS/PVE

Hier habe ich nichts eingestellt, mit dem Verbrauch bin ich eigentlich zufrieden.

Code:

root@pve1:~# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_min_freq
1400000
root@pve1:~#  cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_driver
acpi-cpufreq

Mein PVE1 ohne LXC und VM braucht im Idle zwischen 6 und 12 Watt. Der niedrige Verbrauch und Leistung des HM90 war mitunter der Kaufgrund.

ITT · Sep 16, 2022

Ich habe dabei ja auch nicht den Stromverbrauch gemeint, sondern "verträgliche" Settings.
Nicht alle Factory-Settings sind optimal, daher würde ich da etwas rumexperimentieren (in Sachen Stabilität).
Ich würde mal alle Powersettings (auch die, die PCIe related sind, Stichwort NVMe) abändern.
Mehr kann ich da allerdings auch nicht beitragen.

gustel · Sep 16, 2022

ok.
Vielen Dank für deine Hilfe !!

gustel · Sep 17, 2022

Kurzes Update.
Ich habe die Powersettings deaktiviert, leider ebenfalls ohne Erfolg.
Den PC habe ich jetzt platt gemacht und wie von Neobin vorgeschlagen, Windows 10 installiert.
In Win10 noch einmal die NVMe und SSD mit der jeweiligen Herstellersoftware geprüft. Es wurden keine Probleme gefunden.
Aktuell habe ich OCCT installiert und bis jetzt 6 Tests mit je 1 Stunde gemacht, was bisher auch ohne Probleme durchgelaufen ist.
Der PC läuft seit gestern 19 Uhr ohne Ausfälle durch.

Hat noch jemand eine Idee?

Proxmox Kernel Bug

Member

Member

Distinguished Member

Member

Distinguished Member

Member

Member

Member

Renowned Member

Member

Distinguished Member

Member

Member

Renowned Member

Member

Renowned Member

Member

Renowned Member

Member

Member

We value your privacy