Abstürze des Servers

Springstil

New Member
Apr 3, 2023
9
0
1
Hallo zusammen,

ich kämpfe seit einiger zeit mit Abstürzen vom Server.

Anfangs war es so das der Server nach 1-2 tagen einfach neu gestartet hat, oder einfach nicht mehr reagiert hat. Daraufhin habe ich einen Memtest durchgeführt der aber keine Fehler zeigte. Nach Updates lief der Server dann 4 tage ohne Probleme.

Allerdings ist es dann heute wieder vorgekommen das der Server einfach nicht mehr erreichbar war und Hard neu gestartet werden musste.

Aus den Logs werde ich nicht ganz schüssig:

Code:
Apr 03 11:40:46 pve pveproxy[950889]: got inotify poll request in wrong process - disabling inotify
Apr 03 11:50:58 pve pveproxy[934026]: worker exit
Apr 03 11:50:58 pve pveproxy[1434]: worker 934026 finished
Apr 03 11:50:58 pve pveproxy[1434]: starting 1 worker(s)
Apr 03 11:50:58 pve pveproxy[1434]: worker 952329 started
Apr 03 11:54:58 pve pvedaemon[942487]: <root@pam> successful auth for user 'root@pam'
-- Reboot --
-

dmesg -l warn gibt mir nur
Code:
[    0.836092]  #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31
[    3.075946] i8042: PNP: PS/2 appears to have AUX port disabled, if this is incorrect please boot with i8042.nopnp
[    3.076462] device-mapper: core: CONFIG_IMA_DISABLE_HTABLE is disabled. Duplicate IMA measurements will not be recorded in the IMA log.
[    3.076508] platform eisa.0: EISA: Cannot allocate resource for mainboard
[    3.076509] platform eisa.0: Cannot allocate resource for EISA slot 1
[    3.076510] platform eisa.0: Cannot allocate resource for EISA slot 2
[    3.076510] platform eisa.0: Cannot allocate resource for EISA slot 3
[    3.076511] platform eisa.0: Cannot allocate resource for EISA slot 4
[    3.076511] platform eisa.0: Cannot allocate resource for EISA slot 5
[    3.076511] platform eisa.0: Cannot allocate resource for EISA slot 6
[    3.076512] platform eisa.0: Cannot allocate resource for EISA slot 7
[    3.076512] platform eisa.0: Cannot allocate resource for EISA slot 8
[    3.315420] acpi PNP0C14:01: duplicate WMI GUID 05901221-D566-11D1-B2F0-00A0C9062910 (first instance was on PNP0C14:00)
[    3.316259] ACPI Warning: SystemIO range 0x0000000000000B00-0x0000000000000B08 conflicts with OpRegion 0x0000000000000B00-0x0000000000000B0F (\GSA1.SMBI) (20210730/utaddress-204)
[    3.332623] nvme1n1: p1 size 3907029168 extends beyond EOD, truncated
[    6.793432] spl: loading out-of-tree module taints kernel.
[    6.794424] znvpair: module license 'CDDL' taints kernel.
[    6.794426] Disabling lock debugging due to kernel taint

mehr geben die logs allerdings auch nicht her.

Bei der Verbauten Hardware handelt es sich um einen Ryzen 9 5950x, 128GB DDR4 (ohne XMP Profil) Gigabyte B550M Mainboard und 2 990 Pro M2 SSD´s von Samsung

Ich hoffe mir kann jemand ein paar Lösung Ansätze geben das ich das Problem in den Griff bekomme.
 
Du könntest mal einen anderen Kernel testen (z.B. den 6.2 opt-in) und gucken, dass da alles an Firmwares vom Mainboard, SSDs und Co aktuell sind. Gerade die 990 Pro sollte man doch eh patchen, weil die sich sonst wegen einem Bug totschreiben.
 
Bash:
pveversion -v
?
Code:
proxmox-ve: 7.4-1 (running kernel: 5.15.102-1-pve)
pve-manager: 7.4-3 (running version: 7.4-3/9002ab8a)
pve-kernel-5.15: 7.3-3
pve-kernel-5.15.102-1-pve: 5.15.102-1
pve-kernel-5.15.74-1-pve: 5.15.74-1
ceph-fuse: 15.2.17-pve1
corosync: 3.1.7-pve1
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.24-pve2
libproxmox-acme-perl: 1.4.4
libproxmox-backup-qemu0: 1.3.1-1
libproxmox-rs-perl: 0.2.1
libpve-access-control: 7.4-2
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.3-4
libpve-guest-common-perl: 4.2-4
libpve-http-server-perl: 4.2-1
libpve-rs-perl: 0.7.5
libpve-storage-perl: 7.4-2
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 5.0.2-2
lxcfs: 5.0.3-pve1
novnc-pve: 1.4.0-1
proxmox-backup-client: 2.4.1-1
proxmox-backup-file-restore: 2.4.1-1
proxmox-kernel-helper: 7.4-1
proxmox-mail-forward: 0.1.1-1
proxmox-mini-journalreader: 1.3-1
proxmox-widget-toolkit: 3.6.5
pve-cluster: 7.3-3
pve-container: 4.4-3
pve-docs: 7.4-2
pve-edk2-firmware: 3.20230228-1
pve-firewall: 4.3-1
pve-firmware: 3.6-4
pve-ha-manager: 3.6.0
pve-i18n: 2.12-1
pve-qemu-kvm: 7.2.0-8
pve-xtermjs: 4.16.0-1
qemu-server: 7.4-3
smartmontools: 7.2-pve3
spiceterm: 3.2-2
swtpm: 0.8.0~bpo11+3
vncterm: 1.7-1
zfsutils-linux: 2.1.9-pve1

Du könntest mal einen anderen Kernel testen (z.B. den 6.2 opt-in) und gucken, dass da alles an Firmwares vom Mainboard, SSDs und Co aktuell sind. Gerade die 990 Pro sollte man doch eh patchen, weil die sich sonst wegen einem Bug totschreiben.
Bin nicht sehr Linux gewannt, ein wenig kann ich zwar aber wenns in die tiefe geht bin ich sehr auf Google angewiesen.

Du meinst quasi mit dem Befehl
Code:
apt install pve-kernel-6.2
den Kernel Updaten? Zur zeit läuft 5.15
 
  • Like
Reactions: Springstil
Leider hatte ich heute wieder einen absturz, Im Warn steht nur:

Code:
[    0.829877]  #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31
[    3.098170] tpm tpm0: AMD fTPM version 0x3005400000005 causes system stutter; hwrng disabled
[    3.101611] i8042: PNP: PS/2 appears to have AUX port disabled, if this is incorrect please boot with i8042.nopnp
[    3.102076] device-mapper: core: CONFIG_IMA_DISABLE_HTABLE is disabled. Duplicate IMA measurements will not be recorded in the IMA log.
[    3.102112] platform eisa.0: EISA: Cannot allocate resource for mainboard
[    3.102113] platform eisa.0: Cannot allocate resource for EISA slot 1
[    3.102114] platform eisa.0: Cannot allocate resource for EISA slot 2
[    3.102114] platform eisa.0: Cannot allocate resource for EISA slot 3
[    3.102115] platform eisa.0: Cannot allocate resource for EISA slot 4
[    3.102115] platform eisa.0: Cannot allocate resource for EISA slot 5
[    3.102115] platform eisa.0: Cannot allocate resource for EISA slot 6
[    3.102116] platform eisa.0: Cannot allocate resource for EISA slot 7
[    3.102116] platform eisa.0: Cannot allocate resource for EISA slot 8
[    3.365393] ACPI Warning: SystemIO range 0x0000000000000B00-0x0000000000000B08 conflicts with OpRegion 0x0000000000000B00-0x0000000000000B0F (\GSA1.SMBI) (20221020/utaddress-204)
[    3.378415] nvme0n1: p1 size 3907029168 extends beyond EOD, truncated
[    7.064747] spl: loading out-of-tree module taints kernel.
[    7.066514] znvpair: module license 'CDDL' taints kernel.
[    7.066516] Disabling lock debugging due to kernel taint

Und im Syslog
Code:
Apr 08 17:17:01 pve CRON[809091]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Apr 08 17:17:01 pve CRON[809092]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Apr 08 17:17:01 pve CRON[809091]: pam_unix(cron:session): session closed for user root
-- Reboot --
Apr 08 17:53:05 pve kernel: Linux version 6.2.6-1-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PREEMPT_DYNAMIC PVE 6.2.6-1 (2023-03-14T17:08Z) ()
Apr 08 17:53:05 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.2.6-1-pve root=/dev/mapper/pve-root ro quiet

noch jemand ne idee ? :/
 
[ 3.378415] nvme0n1: p1 size 3907029168 extends beyond EOD, truncated

This sounds like your partition is bigger than your disk, a disk access beyond could lead to a crash

please post results of

lsblk

fdisk -l /dev/nvme?n1
 
  • Like
Reactions: Springstil
[ 3.378415] nvme0n1: p1 size 3907029168 extends beyond EOD, truncated

This sounds like your partition is bigger than your disk, a disk access beyond could lead to a crash

please post results of

lsblk

fdisk -l /dev/nvme?n1

Code:
root@pve:~# lsblk
NAME                         MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
nvme0n1                      259:0    0  1.8T  0 disk
├─nvme0n1p1                  259:1    0 1007K  0 part
├─nvme0n1p2                  259:2    0  512M  0 part /boot/efi
└─nvme0n1p3                  259:3    0  1.8T  0 part
  ├─pve-swap                 253:0    0    8G  0 lvm  [SWAP]
  ├─pve-root                 253:1    0   96G  0 lvm  /
  ├─pve-data_tmeta           253:2    0 15.8G  0 lvm 
  │ └─pve-data-tpool         253:4    0  1.7T  0 lvm 
  │   ├─pve-data             253:5    0  1.7T  1 lvm 
  │   ├─pve-vm--100--disk--0 253:6    0  100G  0 lvm 
  │   ├─pve-vm--101--disk--0 253:7    0  100G  0 lvm 
  │   ├─pve-vm--104--disk--0 253:8    0  100G  0 lvm 
  │   ├─pve-vm--105--disk--0 253:9    0  100G  0 lvm 
  │   ├─pve-vm--106--disk--0 253:10   0  100G  0 lvm 
  │   ├─pve-vm--107--disk--0 253:11   0  100G  0 lvm 
  │   ├─pve-vm--108--disk--0 253:12   0  100G  0 lvm 
  │   ├─pve-vm--109--disk--0 253:13   0  100G  0 lvm 
  │   ├─pve-vm--110--disk--0 253:14   0  100G  0 lvm 
  │   ├─pve-vm--111--disk--0 253:15   0  100G  0 lvm 
  │   ├─pve-vm--112--disk--0 253:16   0  100G  0 lvm 
  │   ├─pve-vm--113--disk--0 253:17   0  100G  0 lvm 
  │   ├─pve-vm--114--disk--0 253:18   0  100G  0 lvm 
  │   ├─pve-vm--115--disk--0 253:19   0  100G  0 lvm 
  │   ├─pve-vm--130--disk--0 253:20   0   32G  0 lvm 
  │   ├─pve-vm--102--disk--3 253:21   0  300G  0 lvm 
  │   ├─pve-vm--103--disk--0 253:22   0  332G  0 lvm 
  │   └─pve-vm--103--disk--1 253:23   0  260G  0 lvm 
  └─pve-data_tdata           253:3    0  1.7T  0 lvm 
    └─pve-data-tpool         253:4    0  1.7T  0 lvm 
      ├─pve-data             253:5    0  1.7T  1 lvm 
      ├─pve-vm--100--disk--0 253:6    0  100G  0 lvm 
      ├─pve-vm--101--disk--0 253:7    0  100G  0 lvm 
      ├─pve-vm--104--disk--0 253:8    0  100G  0 lvm 
      ├─pve-vm--105--disk--0 253:9    0  100G  0 lvm 
      ├─pve-vm--106--disk--0 253:10   0  100G  0 lvm 
      ├─pve-vm--107--disk--0 253:11   0  100G  0 lvm 
      ├─pve-vm--108--disk--0 253:12   0  100G  0 lvm 
      ├─pve-vm--109--disk--0 253:13   0  100G  0 lvm 
      ├─pve-vm--110--disk--0 253:14   0  100G  0 lvm 
      ├─pve-vm--111--disk--0 253:15   0  100G  0 lvm 
      ├─pve-vm--112--disk--0 253:16   0  100G  0 lvm 
      ├─pve-vm--113--disk--0 253:17   0  100G  0 lvm 
      ├─pve-vm--114--disk--0 253:18   0  100G  0 lvm 
      ├─pve-vm--115--disk--0 253:19   0  100G  0 lvm 
      ├─pve-vm--130--disk--0 253:20   0   32G  0 lvm 
      ├─pve-vm--102--disk--3 253:21   0  300G  0 lvm 
      ├─pve-vm--103--disk--0 253:22   0  332G  0 lvm 
      └─pve-vm--103--disk--1 253:23   0  260G  0 lvm 
nvme1n1                      259:4    0  1.8T  0 disk
└─nvme1n1p1                  259:5    0  1.8T  0 part


Code:
root@pve:~# fdisk -l /dev/nvme?n1
Disk /dev/nvme0n1: 1.82 TiB, 2000398934016 bytes, 3907029168 sectors
Disk model: Samsung SSD 990 PRO 2TB                 
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: gpt
Disk identifier: B838737F-BAC8-4934-9D10-88E869814281

Device           Start        End    Sectors  Size Type
/dev/nvme0n1p1      34       2047       2014 1007K BIOS boot
/dev/nvme0n1p2    2048    1050623    1048576  512M EFI System
/dev/nvme0n1p3 1050624 3907029134 3905978511  1.8T Linux LVM


Disk /dev/nvme1n1: 1.82 TiB, 2000398934016 bytes, 3907029168 sectors
Disk model: Samsung SSD 990 PRO 2TB                 
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0x326ded7f

Device         Boot Start        End    Sectors  Size Id Type
/dev/nvme1n1p1         63 3907029230 3907029168  1.8T 82 Linux swap / Solaris

I had once made a partition of the VM's too big, but I'm not sure if I fixed that at that time.

ID 113,115,103 are also switched off and do not run at the moment.

I have however in the zwichenzeit the current Bios eingespielt, since I have read that there is a pair of problems with AMD and Linux. For 3 days, the server runs trouble-free!
 
Fehler gefunden ;) , glaub ich

bitte noch die Ausgabe von:

cat /proc/partitions

cat /etc/fstab

cat /etc/pve/storage.cfg




^
 
Fehler gefunden ;) , glaub ich

bitte noch die Ausgabe von:

cat /proc/partitions

cat /etc/fstab

cat /etc/pve/storage.cfg




^

cat /proc/partitions
Code:
root@pve:~# cat /proc/partitions
major minor  #blocks  name

 259        0 1953514584 nvme0n1
 259        1       1007 nvme0n1p1
 259        2     524288 nvme0n1p2
 259        3 1952989255 nvme0n1p3
 259        4 1953514584 nvme1n1
 259        5 1953514552 nvme1n1p1
 253        0    8388608 dm-0
 253        1  100663296 dm-1
 253        2   16580608 dm-2
 253        3 1793601536 dm-3
 253        4 1793601536 dm-4
 253        5 1793601536 dm-5
 253        6  104857600 dm-6
 253        7  104857600 dm-7
 253        8  104857600 dm-8
 253        9  104857600 dm-9
 253       10  104857600 dm-10
 253       11  104857600 dm-11
 253       12  104857600 dm-12
 253       13  104857600 dm-13
 253       14  104857600 dm-14
 253       15  104857600 dm-15
 253       16  104857600 dm-16
 253       17  104857600 dm-17
 253       18  104857600 dm-18
 253       19  104857600 dm-19
 253       20   33554432 dm-20
 253       21  314572800 dm-21
 253       22  348127232 dm-22
 253       23  272629760 dm-23

cat /etc/fstab
Code:
# <file system> <mount point> <type> <options> <dump> <pass>
/dev/pve/root / ext4 errors=remount-ro 0 1
UUID=7927-0FC2 /boot/efi vfat defaults 0 1
/dev/pve/swap none swap sw 0 0
proc /proc proc defaults 0 0

cat /etc/pve/storage.cfg

Code:
root@pve:~# cat /etc/fstab


# <file system> <mount point> <type> <options> <dump> <pass>
/dev/pve/root / ext4 errors=remount-ro 0 1
UUID=7927-0FC2 /boot/efi vfat defaults 0 1
/dev/pve/swap none swap sw 0 0
proc /proc proc defaults 0 0
root@pve:~# cat /etc/pve/storage.cfg


dir: local
        path /var/lib/vz
        content iso,vztmpl,backup


lvmthin: local-lvm
        thinpool data
        vgname pve
        content rootdir,images

Sehe grade habe vergessen folgendes noch zu Posten. Das Bios Update hab ich auf grund dieser meldung durchgeführt:
Code:
dmesg -l emerg
[    3.106577] mce: [Hardware Error]: CPU 14: Machine Check: 0 Bank 1: bc800800060c0859
[    3.106582] mce: [Hardware Error]: TSC 0 ADDR 69b8f1a80 MISC d012000000000000 IPID 100b000000000
[    3.106585] mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1682058849 SOCKET 0 APIC 1c microcode a20120a
 
Die Partition auf deiner zweiten Disk:
/dev/nvme1n1p1 63 3907029230 3907029168 1.8T 82 Linux swap / Solaris
^ ^ ^
Start Ende Größe

endet NACH dem Ende der Disk:
Disk /dev/nvme1n1: 1.82 TiB, 2000398934016 bytes, 3907029168 sectors
^
Größe der Disk



Was NICHT dazu passt ist die Fehlermeldung nvme0n1: p1 size 3907029168 extends beyond EOD, truncated, das ist allerdings die erste Disks ???
 
Zusätzlich noch im BIOS/UEFI Advanced CPU Settings - Power Supply Idle Control auf Typical Current Idle setzen. Dann hören die Kernel Panics mit der CPU auf.
 
Die Partition auf deiner zweiten Disk:
/dev/nvme1n1p1 63 3907029230 3907029168 1.8T 82 Linux swap / Solaris
^ ^ ^
Start Ende Größe

endet NACH dem Ende der Disk:
Disk /dev/nvme1n1: 1.82 TiB, 2000398934016 bytes, 3907029168 sectors
^
Größe der Disk



Was NICHT dazu passt ist die Fehlermeldung nvme0n1: p1 size 3907029168 extends beyond EOD, truncated, das ist allerdings die erste Disks ???
Die sollten eigendlich im Raid 1 laufen liegt es vielleicht daran?

Zusätzlich noch im BIOS/UEFI Advanced CPU Settings - Power Supply Idle Control auf Typical Current Idle setzen. Dann hören die Kernel Panics mit der CPU auf.
Danke für den Tipp das werd ich mal einstellen
 
Also sowie ich das sehe laufen beide 990 NvMes nicht im Raid 1 !

siehe auch dein Post von

Code:
 259        0 1953514584 nvme0n1
 259        1       1007 nvme0n1p1
 259        2     524288 nvme0n1p2
 259        3 1952989255 nvme0n1p3
 
 259        4 1953514584 nvme1n1
 259        5 1953514552 nvme1n1p1

Wie du siehts hast du auf der nvme1 nur eine Partition welche als SWAP eingerichtet ist !
Auf der NvMe0 sind die üblichen 3 Partitionen vorhanden !

Grüße
eure
Foxi !
 
Wenn du ein Raid haben möchtest würde ich empfehlen die virtuellen Maschinen extern zu sichern, proxmox mit zfs raid z1 neu zu installieren und deine gebackupten vms und Container wieder einzuspielen
 
Und wenn du nicht so viel RAM hast, geht BTRFS auch ganz gut.
 
Also es schein als wenn wirklich das Mainboard einen weg hatte. Seit mehr als 5 Tagen läuft der Server jetzt ohne Absturz durch.

Ich habe jetzt allerdings vor für mein Hauptjob die Server ebenfals zu Virtualisieren. Als Hardware würde ich hier AMD Epic nutzen wollen, spricht da etwas gegen ? Vermutlich den AMD EPYC 7542

AMD ist ja nicht gerade dafür bekannt das sie anständige Treiber haben :P Daher frage ich vorsichtig mal neben bei
 
Ich nutze bei meinen Kunden fast nur noch Epyc für Virtualisierung, egal welcher Hypervisor.
Habe oft DELL, ASUS und Supermicro Server in der Hand und mit keinem jemals Probleme bei Treibern gehabt.
Ich würde lieber den Epyc 7543 nehmen, und nicht so ein altes Modell. Die Zen4 sind natürlich noch cooler, aber mit DDR5 wird der Server dann deutlich teurer.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!