Hallo,
zwei meiner drei Proxmox-Nodes in einem kleinen drei-Node-Cluster haben ein seltsames Problem. Unabhängig voneinander (> 7 Tage Abstand) und nach einer Uptime > 30 Tagen stieg bei beiden die Last sehr hoch an (>70; ~1 normal), das Webinterface reagierte nicht mehr, via Kommandozeile war ein Zugriff kaum noch möglich, eine Reaktion auf Reboot via Web-IF (als noch funktionierend) oder per Kommandozeile erfolgte nicht. Ein lokal angeschlossenes Keyboard wurde zwar erkannt, liess sich aber nicht mehr nutzen.
Seltsamerweise liefen die VMs problemlos weiter, Container hingegen reagierten (wenig überraschend) nicht mehr.
Es handelt sich um eine im Wesentlichen "Standard-Proxmox"-Installation, up-to-date. System und Swap sind auf LVM, die Maschinen (größtenteils) auf zfs.
Zum Zeitpunkt des Beginns des Lastanstiegs tauchet folgende Meldung im Log auf:
Wenngleich die Auswirkungen ähnlich sind, scheint es sich nicht um den zswap-Bug zu handeln, da kein swap auf zfs liegt.
Arbeitsspeicher-Auslastung war stets ok (das System hat 144 GB; weniger als 100 GB waren zum Zeitpunkt des Lastanstiegs genutzt).
Während des Lastanstiegs häuften sich systemd-Zombie-Prozesse ([<defunct>]).
Das System liess sich nur mittels hard-Reboot wiederbeleben, was kein gutes Gefühl hinterlässt.
Über jede Idee wäre ich dankbar!
Hinweis: Crosspost von Reddit, da dort bisher keine Antworten.
zwei meiner drei Proxmox-Nodes in einem kleinen drei-Node-Cluster haben ein seltsames Problem. Unabhängig voneinander (> 7 Tage Abstand) und nach einer Uptime > 30 Tagen stieg bei beiden die Last sehr hoch an (>70; ~1 normal), das Webinterface reagierte nicht mehr, via Kommandozeile war ein Zugriff kaum noch möglich, eine Reaktion auf Reboot via Web-IF (als noch funktionierend) oder per Kommandozeile erfolgte nicht. Ein lokal angeschlossenes Keyboard wurde zwar erkannt, liess sich aber nicht mehr nutzen.
Seltsamerweise liefen die VMs problemlos weiter, Container hingegen reagierten (wenig überraschend) nicht mehr.
Es handelt sich um eine im Wesentlichen "Standard-Proxmox"-Installation, up-to-date. System und Swap sind auf LVM, die Maschinen (größtenteils) auf zfs.
Code:
proxmox-ve: 6.1-2 (running kernel: 5.3.13-1-pve)
pve-manager: 6.1-5 (running version: 6.1-5/9bf06119)
pve-kernel-5.3: 6.1-1
pve-kernel-helper: 6.1-1
pve-kernel-5.0: 6.0-11
pve-kernel-4.15: 5.4-6
pve-kernel-5.3.13-1-pve: 5.3.13-1
pve-kernel-5.3.10-1-pve: 5.3.10-1
pve-kernel-5.0.21-5-pve: 5.0.21-10
pve-kernel-4.15.18-18-pve: 4.15.18-44
pve-kernel-4.15.18-12-pve: 4.15.18-36
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.2-pve4
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.13-pve1
libpve-access-control: 6.0-5
libpve-apiclient-perl: 3.0-2
libpve-common-perl: 6.0-9
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-3
libpve-storage-perl: 6.1-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve3
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-1
pve-cluster: 6.1-2
pve-container: 3.0-15
pve-docs: 6.1-3
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-9
pve-firmware: 3.0-4
pve-ha-manager: 3.0-8
pve-i18n: 2.0-3
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 3.13.2-1
qemu-server: 6.1-4
smartmontools: 7.0-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.2-pve2
Zum Zeitpunkt des Beginns des Lastanstiegs tauchet folgende Meldung im Log auf:
Code:
Jan 6 19:45:56 pve1 kernel: [2773172.637678] BUG: unable to handle page fault for address: 0000000000001014
Jan 6 19:45:56 pve1 kernel: [2773172.637883] #PF: supervisor read access in kernel mode
Jan 6 19:45:56 pve1 kernel: [2773172.638033] #PF: error_code(0x0000) - not-present page
Jan 6 19:45:56 pve1 kernel: [2773172.638183] PGD 0 P4D 0
Jan 6 19:45:56 pve1 kernel: [2773172.638263] Oops: 0000 [#1] SMP PTI
Jan 6 19:45:56 pve1 kernel: [2773172.638368] CPU: 11 PID: 20462 Comm: kworker/11:2 Tainted: P W IO 5.3.10-1-pve #1
Jan 6 19:45:56 pve1 kernel: [2773172.638614] Hardware name: HP ProLiant DL360 G7, BIOS P68 08/16/2015
Jan 6 19:45:56 pve1 kernel: [2773172.638803] Workqueue: events key_garbage_collector
Jan 6 19:45:56 pve1 kernel: [2773172.638947] RIP: 0010:keyring_gc_check_iterator+0x30/0x40
Jan 6 19:45:56 pve1 kernel: [2773172.639105] Code: 48 83 e7 fc b8 01 00 00 00 48 89 e5 f6 87 80 00 00 00 21 75 19 48 8b 57 58 48 39 16 7c 05 48 85 d2 7f 0b 48 8b 87 a0 00 00 00 <0f> b6 40 14 5d c3 66 2e 0f 1f 84 00 00 00 00 00 66 66 66 66 90 55
Jan 6 19:45:56 pve1 kernel: [2773172.639634] RSP: 0018:ffffb307f5bc3db8 EFLAGS: 00010282
Jan 6 19:45:56 pve1 kernel: [2773172.639786] RAX: 0000000000001000 RBX: ffffa0eacc931380 RCX: ffffb307f5bc3e20
Jan 6 19:45:56 pve1 kernel: [2773172.639992] RDX: ffffffff9bb0ebb0 RSI: ffffb307f5bc3e20 RDI: ffffa0e964f04100
Jan 6 19:45:56 pve1 kernel: [2773172.640198] RBP: ffffb307f5bc3db8 R08: 0000000000000000 R09: 000073746e657665
Jan 6 19:45:56 pve1 kernel: [2773172.640405] R10: 8080808080808080 R11: 0000000000000000 R12: ffffa0eacc931410
Jan 6 19:45:56 pve1 kernel: [2773172.640611] R13: ffffffff9bc27de0 R14: ffffa0fffdfbdf00 R15: ffffa0eacc931408
Jan 6 19:45:56 pve1 kernel: [2773172.640818] FS: 0000000000000000(0000) GS:ffffa0fcd7940000(0000) knlGS:0000000000000000
Jan 6 19:45:56 pve1 kernel: [2773172.641051] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jan 6 19:45:56 pve1 kernel: [2773172.641219] CR2: 0000000000001014 CR3: 00000021ca952006 CR4: 00000000000226e0
Jan 6 19:45:56 pve1 kernel: [2773172.641425] Call Trace:
Jan 6 19:45:56 pve1 kernel: [2773172.641504] assoc_array_subtree_iterate+0x5c/0x100
Jan 6 19:45:56 pve1 kernel: [2773172.641647] assoc_array_iterate+0x19/0x20
Jan 6 19:45:56 pve1 kernel: [2773172.641769] keyring_gc+0x43/0x80
Jan 6 19:45:56 pve1 kernel: [2773172.641869] key_garbage_collector+0x35a/0x400
Jan 6 19:45:56 pve1 kernel: [2773172.642002] process_one_work+0x20f/0x3d0
Jan 6 19:45:56 pve1 kernel: [2773172.642122] worker_thread+0x34/0x400
Jan 6 19:45:56 pve1 kernel: [2773172.642233] kthread+0x120/0x140
Jan 6 19:45:56 pve1 kernel: [2773172.642331] ? process_one_work+0x3d0/0x3d0
Jan 6 19:45:56 pve1 kernel: [2773172.642455] ? __kthread_parkme+0x70/0x70
Jan 6 19:45:56 pve1 kernel: [2773172.642577] ret_from_fork+0x35/0x40
Jan 6 19:45:56 pve1 kernel: [2773172.642685] Modules linked in: tcp_diag inet_diag binfmt_misc veth rpcsec_gss_krb5 auth_rpcgss nfsv4 nfs lockd grace fscache ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter ip6_tables sctp iptable_filter bpfilter 8021q garp mrp softdog nfnetlink_log nfnetlink intel_powerclamp coretemp kvm_intel kvm irqbypass ipmi_ssif crct10dif_pclmul crc32_pclmul ghash_clmulni_intel zfs(PO) aesni_intel radeon aes_x86_64 crypto_simd zunicode(PO) zlua(PO) cryptd zavl(PO) ttm drm_kms_helper glue_helper icp(PO) drm i2c_algo_bit fb_sys_fops syscopyarea sysfillrect ipmi_si sysimgblt ipmi_devintf i7core_edac ipmi_msghandler intel_cstate input_leds hpilo serio_raw pcspkr acpi_power_meter mac_hid zcommon(PO) znvpair(PO) spl(O) vhost_net vhost tap ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi sunrpc ip_tables x_tables autofs4 btrfs xor zstd_compress raid6_pq dm_thin_pool dm_persistent_data dm_bio_prison dm_bufio libcrc32c hid_generic gpio_ich usbkbd
Jan 6 19:45:56 pve1 kernel: [2773172.642724] usbhid pata_acpi psmouse hid mptsas mptscsih lpc_ich mptbase hpsa scsi_transport_sas bnx2
Jan 6 19:45:56 pve1 kernel: [2773172.676322] CR2: 0000000000001014
Jan 6 19:45:56 pve1 kernel: [2773172.684394] ---[ end trace 20c5f0ffb65816aa ]---
Jan 6 19:45:56 pve1 kernel: [2773172.692428] RIP: 0010:keyring_gc_check_iterator+0x30/0x40
Jan 6 19:45:56 pve1 kernel: [2773172.700526] Code: 48 83 e7 fc b8 01 00 00 00 48 89 e5 f6 87 80 00 00 00 21 75 19 48 8b 57 58 48 39 16 7c 05 48 85 d2 7f 0b 48 8b 87 a0 00 00 00 <0f> b6 40 14 5d c3 66 2e 0f 1f 84 00 00 00 00 00 66 66 66 66 90 55
Jan 6 19:45:56 pve1 kernel: [2773172.717527] RSP: 0018:ffffb307f5bc3db8 EFLAGS: 00010282
Jan 6 19:45:56 pve1 kernel: [2773172.726023] RAX: 0000000000001000 RBX: ffffa0eacc931380 RCX: ffffb307f5bc3e20
Jan 6 19:45:56 pve1 kernel: [2773172.734539] RDX: ffffffff9bb0ebb0 RSI: ffffb307f5bc3e20 RDI: ffffa0e964f04100
Jan 6 19:45:56 pve1 kernel: [2773172.742971] RBP: ffffb307f5bc3db8 R08: 0000000000000000 R09: 000073746e657665
Jan 6 19:45:56 pve1 kernel: [2773172.751318] R10: 8080808080808080 R11: 0000000000000000 R12: ffffa0eacc931410
Jan 6 19:45:56 pve1 kernel: [2773172.759679] R13: ffffffff9bc27de0 R14: ffffa0fffdfbdf00 R15: ffffa0eacc931408
Jan 6 19:45:56 pve1 kernel: [2773172.768036] FS: 0000000000000000(0000) GS:ffffa0fcd7940000(0000) knlGS:0000000000000000
Jan 6 19:45:56 pve1 kernel: [2773172.776553] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jan 6 19:45:56 pve1 kernel: [2773172.784996] CR2: 0000000000001014 CR3: 00000021ca952006 CR4: 00000000000226e0
Wenngleich die Auswirkungen ähnlich sind, scheint es sich nicht um den zswap-Bug zu handeln, da kein swap auf zfs liegt.
Arbeitsspeicher-Auslastung war stets ok (das System hat 144 GB; weniger als 100 GB waren zum Zeitpunkt des Lastanstiegs genutzt).
Während des Lastanstiegs häuften sich systemd-Zombie-Prozesse ([<defunct>]).
Das System liess sich nur mittels hard-Reboot wiederbeleben, was kein gutes Gefühl hinterlässt.
Über jede Idee wäre ich dankbar!
Hinweis: Crosspost von Reddit, da dort bisher keine Antworten.