PVE friert nach einigen Tagen ein 8.2.2

skjold

New Member
Aug 11, 2024
3
0
1
Hallo Gemeinde,
ich weiß leider nicht mehr weiter.
Mein PVE friert für mich ohne Fehlermeldung nach einigen Tagen oder Wochen einfach ein.
Das System läuft auf einen DELL Optiplex 3050MICO I5-6500T/32GB RAM. EINE M2 SSD 1TB und eine 2TB SSD als SSATA als Datenplatte.
Vielleicht kann einer von euch mal durch meinen Journal schauen und kann mir einen Tipp geben.

Das System lief bis gestern ca. 21Uhr.
Anschließend:
  • Kein PING
  • Kein SSH
  • Keine WEB GUI
  • VMs und LXCs nicht erreichbar
Nach einen AUS/EIN der Maschine läuft alles wie gewohnt weiter.
Neustart 16:27 13.10.2024

Letzte Neustart 11.09. 11:05

Ich habe noch ein Bild von dem ersten Crash im Sept. angehangen.
Da hatte ich ein Bildschirm angeschlossen, was ich jetzt leider nicht gemacht habe.


pveversion -v:

proxmox-ve: 8.2.0 (running kernel: 6.8.4-2-pve)
pve-manager: 8.2.2 (running version: 8.2.2/9355359cd7afbae4)
proxmox-kernel-helper: 8.1.0
proxmox-kernel-6.8: 6.8.4-2
proxmox-kernel-6.8.4-2-pve-signed: 6.8.4-2
ceph-fuse: 17.2.7-pve3
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx8
ksm-control-daemon: 1.5-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.0
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.3
libpve-access-control: 8.1.4
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.0.6
libpve-cluster-perl: 8.0.6
libpve-common-perl: 8.2.1
libpve-guest-common-perl: 5.1.1
libpve-http-server-perl: 5.1.0
libpve-network-perl: 0.9.8
libpve-rs-perl: 0.8.8
libpve-storage-perl: 8.2.1
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.4.0-3
proxmox-backup-client: 3.2.0-1
proxmox-backup-file-restore: 3.2.0-1
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.6
proxmox-widget-toolkit: 4.2.1
pve-cluster: 8.0.6
pve-container: 5.0.10
pve-docs: 8.2.1
pve-edk2-firmware: 4.2023.08-4
pve-esxi-import-tools: 0.7.0
pve-firewall: 5.0.5
pve-firmware: 3.11-1
pve-ha-manager: 4.0.4
pve-i18n: 3.2.2
pve-qemu-kvm: 8.1.5-5
pve-xtermjs: 5.3.0-3
qemu-server: 8.2.1
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.3-pve2

root@Datacenter:~# lspci -nnk
00:00.0 Host bridge [0600]: Intel Corporation Xeon E3-1200 v6/7th Gen Core Processor Host Bridge/DRAM Registers [8086:591f] (rev 05)
Subsystem: Dell Xeon E3-1200 v6/7th Gen Core Processor Host Bridge/DRAM Registers [1028:07a3]
Kernel driver in use: skl_uncore
00:02.0 VGA compatible controller [0300]: Intel Corporation HD Graphics 630 [8086:5912] (rev 04)
Subsystem: Dell HD Graphics 630 [1028:07a3]
Kernel driver in use: i915
Kernel modules: i915
00:14.0 USB controller [0c03]: Intel Corporation 200 Series/Z370 Chipset Family USB 3.0 xHCI Controller [8086:a2af]
Subsystem: Dell 200 Series/Z370 Chipset Family USB 3.0 xHCI Controller [1028:07a3]
Kernel driver in use: xhci_hcd
Kernel modules: xhci_pci
00:14.2 Signal processing controller [1180]: Intel Corporation 200 Series PCH Thermal Subsystem [8086:a2b1]
Subsystem: Dell 200 Series PCH Thermal Subsystem [1028:07a3]
00:16.0 Communication controller [0780]: Intel Corporation 200 Series PCH CSME HECI #1 [8086:a2ba]
Subsystem: Dell 200 Series PCH CSME HECI [1028:07a3]
Kernel driver in use: mei_me
Kernel modules: mei_me
00:17.0 SATA controller [0106]: Intel Corporation 200 Series PCH SATA controller [AHCI mode] [8086:a282]
Subsystem: Dell 200 Series PCH SATA controller [AHCI mode] [1028:07a3]
Kernel driver in use: ahci
Kernel modules: ahci
00:1b.0 PCI bridge [0604]: Intel Corporation 200 Series PCH PCI Express Root Port #21 [8086:a2eb] (rev f0)
Kernel driver in use: pcieport
00:1c.0 PCI bridge [0604]: Intel Corporation 200 Series PCH PCI Express Root Port #5 [8086:a294] (rev f0)
Subsystem: Dell 200 Series PCH PCI Express Root Port [1028:07a3]
Kernel driver in use: pcieport
00:1c.7 PCI bridge [0604]: Intel Corporation 200 Series PCH PCI Express Root Port #8 [8086:a297] (rev f0)
Subsystem: Dell 200 Series PCH PCI Express Root Port [1028:07a3]
Kernel driver in use: pcieport
00:1f.0 ISA bridge [0601]: Intel Corporation 200 Series PCH LPC Controller (B250) [8086:a2c8]
Subsystem: Dell 200 Series PCH LPC Controller (B250) [1028:07a3]
00:1f.2 Memory controller [0580]: Intel Corporation 200 Series/Z370 Chipset Family Power Management Controller [8086:a2a1]
Subsystem: Dell 200 Series/Z370 Chipset Family Power Management Controller [1028:07a3]
00:1f.3 Audio device [0403]: Intel Corporation 200 Series PCH HD Audio [8086:a2f0]
Subsystem: Dell 200 Series PCH HD Audio [1028:07a3]
Kernel driver in use: snd_hda_intel
Kernel modules: snd_hda_intel, snd_soc_avs
00:1f.4 SMBus [0c05]: Intel Corporation 200 Series/Z370 Chipset Family SMBus Controller [8086:a2a3]
Subsystem: Dell 200 Series/Z370 Chipset Family SMBus Controller [1028:07a3]
Kernel driver in use: i801_smbus
Kernel modules: i2c_i801
01:00.0 Non-Volatile memory controller [0108]: Sandisk Corp WD Black SN750 / PC SN730 NVMe SSD [15b7:5006]
Subsystem: Sandisk Corp SanDisk Extreme Pro / WD Black SN750 / PC SN730 / Red SN700 NVMe SSD [15b7:5006]
Kernel driver in use: nvme
Kernel modules: nvme
02:00.0 Ethernet controller [0200]: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Subsystem: Dell RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [1028:07a3]
Kernel driver in use: r8169
Kernel modules: r8169
03:00.0 Network controller [0280]: Intel Corporation Wireless 3165 [8086:3165] (rev 79)
Subsystem: Intel Corporation Wireless 3165 [8086:4410]
Kernel driver in use: iwlwifi
Kernel modules: iwlwifi
 

Attachments

  • journal1.txt
    732.9 KB · Views: 2
  • Monitor.jpg
    Monitor.jpg
    667.1 KB · Views: 3
Last edited:
Wilkommen im Proxmox forum, skjold!

Das Dateisystem wurde kurz nach dem Start des Containers 101 erfolgreich bereinigt, aber es ist auffällig, dass das MMP (Multiple Mount Protection) Intervall eine Warnung auslöst. Ist das dm-9 device zufällig die Volume des Containers zugewiesen (e.g. ls -lha /dev/mapper/ | grep dm-9)?

Code:
Oct 13 16:27:42 Datacenter pvesh[1146]: Starting CT 101
[ ... cut here ... ]
Oct 13 16:27:42 Datacenter systemd[1]: Started pve-container@101.service - PVE LXC Container: 101.
Oct 13 16:27:43 Datacenter kernel: EXT4-fs warning (device dm-9): ext4_multi_mount_protect:328: MMP interval 42 higher than expected, please wait.
Oct 13 16:27:58 Datacenter systemd[1]: systemd-fsckd.service: Deactivated successfully.
Oct 13 16:28:25 Datacenter systemd[1]: Starting e2scrub_all.service - Online ext4 Metadata Check for All Filesystems...
Oct 13 16:28:25 Datacenter systemd[1]: e2scrub_all.service: Deactivated successfully.
Oct 13 16:28:25 Datacenter systemd[1]: Finished e2scrub_all.service - Online ext4 Metadata Check for All Filesystems.
Oct 13 16:28:26 Datacenter kernel: EXT4-fs (dm-9): 2 orphan inodes deleted
Oct 13 16:28:26 Datacenter kernel: EXT4-fs (dm-9): recovery complete
Oct 13 16:28:26 Datacenter kernel: EXT4-fs (dm-9): mounted filesystem [ ... redacted ... ] r/w with ordered data mode. Quota mode: none.

Wie schaut das Storage Setup auf dem Host aus (e.g. cat /etc/pve/storage.cfg und cat /proc/mounts (evtl. NFS IP-Addressen, etc. anonymisieren))? Wurden die darunterliegenden SSDs bereits manuell auf Disk health überprüft (e.g. smartctl short/long tests)? Es ist auch auffällig, dass der smartd daemon die folgenden zwei Attribute nicht lesen konnte:

Code:
Oct 13 16:27:29 Datacenter smartd[753]: Device: /dev/sda [SAT], can't monitor Current_Pending_Sector count - no Attribute 197
Oct 13 16:27:29 Datacenter smartd[753]: Device: /dev/sda [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198

Außerdem ist die Kernel Version 6.8.4-2-pve relativ bekannt für dessen Instabilität auf einigen PVE hosts (nach Erfahrungsmeldungen einiger Forum-User). Wenn es keinen bestimmten Grund gibt, wäre es sicher ratsam ein Upgrade (z.B. für das ganze System apt update && apt full-upgrade) durchzuführen.
 
Noch eine kleine Anmerkung: Ich habe im Journal auch bemerkt, dass bei einem NFS die Domain nicht richtig aufgelöst werden kann (zumindest nach den Warnungen im Journal). Ich denke aber nicht, dass das Problem mit diesem zusammenhängt, aber ist ein NFS im Einsatz?

Code:
Oct 04 20:21:13 Datacenter nfsidmap[1122769]: nss_getpwnam: name 'root@localdomain' does not map into domain '[ ... redacted ... ]'
Oct 04 20:21:13 Datacenter nfsidmap[1122770]: nss_name_to_gid: name 'root@localdomain' does not map into domain '[ ... redacted ... ]'
 
Wilkommen im Proxmox forum, skjold!

Das Dateisystem wurde kurz nach dem Start des Containers 101 erfolgreich bereinigt, aber es ist auffällig, dass das MMP (Multiple Mount Protection) Intervall eine Warnung auslöst. Ist das dm-9 device zufällig die Volume des Containers zugewiesen (e.g. ls -lha /dev/mapper/ | grep dm-9)?
Erstmal vielen Dank. dass du mir bei meinem Problem behilflich bist!

Schau mal, ja ist der Container 101 (PiHole) lrwxrwxrwx 1 root root 7 Oct 16 15:35 pve-vm--101--disk--0 -> ../dm-9
Code:
Oct 13 16:27:42 Datacenter pvesh[1146]: Starting CT 101
[ ... cut here ... ]
Oct 13 16:27:42 Datacenter systemd[1]: Started pve-container@101.service - PVE LXC Container: 101.
Oct 13 16:27:43 Datacenter kernel: EXT4-fs warning (device dm-9): ext4_multi_mount_protect:328: MMP interval 42 higher than expected, please wait.
Oct 13 16:27:58 Datacenter systemd[1]: systemd-fsckd.service: Deactivated successfully.
Oct 13 16:28:25 Datacenter systemd[1]: Starting e2scrub_all.service - Online ext4 Metadata Check for All Filesystems...
Oct 13 16:28:25 Datacenter systemd[1]: e2scrub_all.service: Deactivated successfully.
Oct 13 16:28:25 Datacenter systemd[1]: Finished e2scrub_all.service - Online ext4 Metadata Check for All Filesystems.
Oct 13 16:28:26 Datacenter kernel: EXT4-fs (dm-9): 2 orphan inodes deleted
Oct 13 16:28:26 Datacenter kernel: EXT4-fs (dm-9): recovery complete
Oct 13 16:28:26 Datacenter kernel: EXT4-fs (dm-9): mounted filesystem [ ... redacted ... ] r/w with ordered data mode. Quota mode: none.

Wie schaut das Storage Setup auf dem Host aus (e.g. cat /etc/pve/storage.cfg und cat /proc/mounts (evtl. NFS IP-Addressen, etc. anonymisieren))? Wurden die darunterliegenden SSDs bereits manuell auf Disk health überprüft (e.g. smartctl short/long tests)? Es ist auch auffällig, dass der smartd daemon die folgenden zwei Attribute nicht lesen konnte:
root@Datacenter:~# cat /etc/pve/storage.cfg
dir: local
path /var/lib/vz
content backup,iso,vztmpl

lvmthin: local-lvm
thinpool data
vgname pve
content images,rootdir

nfs: NAS200
export /volume1/proxbackup
path /mnt/pve/NAS200
server 192.168.xxx.xxx
content images,backup,iso,vztmpl,rootdir,snippets
prune-backups keep-all=1

lvm: SSD1
vgname SSD1
content rootdir,images
nodes Datacenter
shared 0

root@Datacenter:~# cat /proc/mounts
sysfs /sys sysfs rw,nosuid,nodev,noexec,relatime 0 0
proc /proc proc rw,relatime 0 0
udev /dev devtmpfs rw,nosuid,relatime,size=16331444k,nr_inodes=4082861,mode=755,inode64 0 0
devpts /dev/pts devpts rw,nosuid,noexec,relatime,gid=5,mode=620,ptmxmode=000 0 0
tmpfs /run tmpfs rw,nosuid,nodev,noexec,relatime,size=3273052k,mode=755,inode64 0 0
/dev/mapper/pve-root / ext4 rw,relatime,errors=remount-ro 0 0
securityfs /sys/kernel/security securityfs rw,nosuid,nodev,noexec,relatime 0 0
tmpfs /dev/shm tmpfs rw,nosuid,nodev,inode64 0 0
tmpfs /run/lock tmpfs rw,nosuid,nodev,noexec,relatime,size=5120k,inode64 0 0
cgroup2 /sys/fs/cgroup cgroup2 rw,nosuid,nodev,noexec,relatime 0 0
pstore /sys/fs/pstore pstore rw,nosuid,nodev,noexec,relatime 0 0
efivarfs /sys/firmware/efi/efivars efivarfs rw,nosuid,nodev,noexec,relatime 0 0
bpf /sys/fs/bpf bpf rw,nosuid,nodev,noexec,relatime,mode=700 0 0
systemd-1 /proc/sys/fs/binfmt_misc autofs rw,relatime,fd=30,pgrp=1,timeout=0,minproto=5,maxproto=5,direct,pipe_ino=5367 0 0
hugetlbfs /dev/hugepages hugetlbfs rw,relatime,pagesize=2M 0 0
mqueue /dev/mqueue mqueue rw,nosuid,nodev,noexec,relatime 0 0
debugfs /sys/kernel/debug debugfs rw,nosuid,nodev,noexec,relatime 0 0
tracefs /sys/kernel/tracing tracefs rw,nosuid,nodev,noexec,relatime 0 0
fusectl /sys/fs/fuse/connections fusectl rw,nosuid,nodev,noexec,relatime 0 0
configfs /sys/kernel/config configfs rw,nosuid,nodev,noexec,relatime 0 0
ramfs /run/credentials/systemd-sysusers.service ramfs ro,nosuid,nodev,noexec,relatime,mode=700 0 0
ramfs /run/credentials/systemd-tmpfiles-setup-dev.service ramfs ro,nosuid,nodev,noexec,relatime,mode=700 0 0
/dev/nvme0n1p2 /boot/efi vfat rw,relatime,fmask=0022,dmask=0022,codepage=437,iocharset=iso8859-1,shortname=mixed,errors=remount-ro 0 0
ramfs /run/credentials/systemd-sysctl.service ramfs ro,nosuid,nodev,noexec,relatime,mode=700 0 0
ramfs /run/credentials/systemd-tmpfiles-setup.service ramfs ro,nosuid,nodev,noexec,relatime,mode=700 0 0
binfmt_misc /proc/sys/fs/binfmt_misc binfmt_misc rw,nosuid,nodev,noexec,relatime 0 0
sunrpc /run/rpc_pipefs rpc_pipefs rw,relatime 0 0
lxcfs /var/lib/lxcfs fuse.lxcfs rw,nosuid,nodev,relatime,user_id=0,group_id=0,allow_other 0 0
/dev/fuse /etc/pve fuse rw,nosuid,nodev,relatime,user_id=0,group_id=0,default_permissions,allow_other 0 0
192.168.xxx.xxx:/volume1/proxbackup /mnt/pve/NAS200 nfs4 rw,relatime,vers=4.0,rsize=131072,wsize=131072,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=192.168.xxx.xxx,local_lock=none,addr=192.168.xxx.xxx 0 0
tmpfs /run/user/0 tmpfs rw,nosuid,nodev,relatime,size=3273048k,nr_inodes=818262,mode=700,inode64 0 0


=== START OF INFORMATION SECTION ===
Model Number: WD Red SN700 1000GB
Serial Number: 241720800687
Firmware Version: 111150WD
PCI Vendor/Subsystem ID: 0x15b7
IEEE OUI Identifier: 0x001b44
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 8215
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 001b44 8b472a51a3
Local Time is: Wed Oct 16 16:14:17 2024 CEST
Firmware Updates (0x14): 2 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x0e): Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 128 Pages
Warning Comp. Temp. Threshold: 84 Celsius
Critical Comp. Temp. Threshold: 88 Celsius
Namespace 1 Features (0x02): NA_Fields

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 6.00W - - 0 0 0 0 0 0
1 + 3.50W - - 1 1 1 1 0 0
2 + 3.00W - - 2 2 2 2 0 0
3 - 0.1000W - - 3 3 3 3 4000 10000
4 - 0.0035W - - 4 4 4 4 4000 40000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 2
1 - 4096 0 1

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 58 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 1,058,593 [541 GB]
Data Units Written: 931,394 [476 GB]
Host Read Commands: 6,965,670
Host Write Commands: 40,306,900
Controller Busy Time: 48
Power Cycles: 24
Power On Hours: 1,555
Unsafe Shutdowns: 13
Media and Data Integrity Errors: 0
Error Information Log Entries: 1
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0

Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged

smartctl short/long habe ich noch nicht gemacht. Hier fehlt mir noch die richtige Vorgehensweise, dass muss ich mir nochmal anschauen.

Code:
Oct 13 16:27:29 Datacenter smartd[753]: Device: /dev/sda [SAT], can't monitor Current_Pending_Sector count - no Attribute 197
Oct 13 16:27:29 Datacenter smartd[753]: Device: /dev/sda [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198

Außerdem ist die Kernel Version 6.8.4-2-pve relativ bekannt für dessen Instabilität auf einigen PVE hosts (nach Erfahrungsmeldungen einiger Forum-User). Wenn es keinen bestimmten Grund gibt, wäre es sicher ratsam ein Upgrade (z.B. für das ganze System apt update && apt full-upgrade) durchzuführen.
Update mache ich.
 
Last edited:
Noch eine kleine Anmerkung: Ich habe im Journal auch bemerkt, dass bei einem NFS die Domain nicht richtig aufgelöst werden kann (zumindest nach den Warnungen im Journal). Ich denke aber nicht, dass das Problem mit diesem zusammenhängt, aber ist ein NFS im Einsatz?

Code:
Oct 04 20:21:13 Datacenter nfsidmap[1122769]: nss_getpwnam: name 'root@localdomain' does not map into domain '[ ... redacted ... ]'
Oct 04 20:21:13 Datacenter nfsidmap[1122770]: nss_name_to_gid: name 'root@localdomain' does not map into domain '[ ... redacted ... ]'
Ja diese Meldung kommt scheinbar von meiner als NFS gemounten NAS 192.168.xxx.xxx.
Ich weiß leider nicht, was ich tun kann das die Domain richtig aufgelöst wird. Ich weiß auch gar nicht wo er diese her hat.
Ich habe bin Setup des PVE eine Domain vergeben, dass ist diese der er sucht, aber was hat das mit dem NAS bzw. der NFS Freigabe zutun?
 
Ja diese Meldung kommt scheinbar von meiner als NFS gemounten NAS 192.168.xxx.xxx.
Ich weiß leider nicht, was ich tun kann das die Domain richtig aufgelöst wird. Ich weiß auch gar nicht wo er diese her hat.
Ich habe bin Setup des PVE eine Domain vergeben, dass ist diese der er sucht, aber was hat das mit dem NAS bzw. der NFS Freigabe zutun?
Ich habe diesen Fehler bislang auch noch nicht gehabt. Es könnte jedoch sein, dass entweder am NFS Server selbst der hostname (/etc/hostname) noch nicht richtig gesetzt wurde, und/oder dass in der Konfiguration des nfsidmapd (am PVE Host) ein Fehler liegt (/etc/idmapd.conf, siehe [0]). Du könntest eventuell auch am NFS Server überprüfen, dass in der /etc/hosts Datei ein richtiger Eintrag für den lokalen Host gesetzt wurde.

[0] https://linux.die.net/man/5/idmapd.conf
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!