Crash/System bleibt stehen

JanWiesemann

New Member
Mar 2, 2022
6
0
1
26
Hi,

ich habe in den Vergangenen Zeit immer wieder das Problem gehabt, dass mein System einfach stehen bleibt. Es reagiert nicht mehr über das Webinterface oder über SSH. Auch die VMs/CTs sind nicht zu erreichen.

Wie kann ich eine Lösung für dieses Problem finden?

Hier der Syslog für die entsprechenden Uhrzeiten.

Da es sich hier um ein kleines Homelab handelt, ist auf diesem Server auch der PBS installiert.

Code:
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Chunk count: 490
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Upload size: 34847671 (2%)
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Duplicates: 487+0 (99%)
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Compression: 6%
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: successfully closed dynamic index 2
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Upload statistics for 'catalog.pcat1.didx'
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: UUID: d489e01f82fb4dfc896828a41c914aa3
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Checksum: 8dcd58298ff9d13a8711ed4cdcc0cba23bc734a4f242fa87bccbd92c9b69b347
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Size: 638471
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Chunk count: 3
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Upload size: 638471 (100%)
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Duplicates: 0+2 (66%)
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: Compression: 42%
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: successfully closed dynamic index 1
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: add blob "/mnt/datastore/main/ct/107/2022-03-02T03:03:26Z/index.json.blob" (423 bytes, comp: 423)
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: successfully finished backup
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: backup finished successfully
Mar 02 04:03:45 ProxmoxServer proxmox-backup-proxy[1075]: TASK OK
Mar 02 04:03:46 ProxmoxServer pvescheduler[1209326]: INFO: Finished Backup of VM 107 (00:00:20)
Mar 02 04:03:47 ProxmoxServer proxmox-backup-proxy[1075]: Upload backup log to main/ct/107/2022-03-02T03:03:26Z/client.log.blob
Mar 02 04:03:47 ProxmoxServer pvescheduler[1209326]: INFO: Backup job finished successfully
Mar 02 04:17:01 ProxmoxServer CRON[1232524]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 02 04:17:01 ProxmoxServer CRON[1232531]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Mar 02 04:17:01 ProxmoxServer CRON[1232524]: pam_unix(cron:session): session closed for user root
Mar 02 04:17:42 ProxmoxServer pmxcfs[9644]: [dcdb] notice: data verification successful
Mar 02 04:18:14 ProxmoxServer smartd[850]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 46 to 43
Mar 02 04:18:14 ProxmoxServer smartd[850]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 103 to 96
Mar 02 04:19:35 ProxmoxServer proxmox-backup-proxy[1075]: write rrd data back to disk
Mar 02 04:19:35 ProxmoxServer proxmox-backup-proxy[1075]: starting rrd data sync
Mar 02 04:19:35 ProxmoxServer proxmox-backup-proxy[1075]: rrd journal successfully committed (23 files in 0.348 seconds)
Mar 02 04:48:14 ProxmoxServer smartd[850]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 43 to 41
Mar 02 04:48:14 ProxmoxServer smartd[850]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 96 to 93
Mar 02 04:49:35 ProxmoxServer proxmox-backup-proxy[1075]: write rrd data back to disk
Mar 02 04:49:35 ProxmoxServer proxmox-backup-proxy[1075]: starting rrd data sync
Mar 02 04:49:35 ProxmoxServer proxmox-backup-proxy[1075]: rrd journal successfully committed (23 files in 0.115 seconds)
Mar 02 05:00:01 ProxmoxServer CRON[1290787]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Mar 02 05:00:01 ProxmoxServer CRON[1290788]: (root) CMD (/usr/bin/curl -k "https://janwiesemann.de/" -m 10 -o /dev/null -s -S)
Mar 02 05:00:01 ProxmoxServer CRON[1290787]: pam_unix(cron:session): session closed for user root
Mar 02 05:00:03 ProxmoxServer proxmox-backup-proxy[1075]: removing backup snapshot "/mnt/datastore/main/ct/107/2022-03-01T03:03:33Z"
Mar 02 05:00:03 ProxmoxServer proxmox-backup-proxy[1075]: removing backup snapshot "/mnt/datastore/main/ct/105/2022-03-01T03:00:05Z"
-- Reboot --
Mar 02 07:39:04 ProxmoxServer kernel: Linux version 5.13.19-4-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PVE 5.13.19-9 (Mon, 07 Feb 2022 11:01:14 +0100) ()
Mar 02 07:39:04 ProxmoxServer kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-5.13.19-4-pve root=/dev/mapper/pve-root ro quiet
Mar 02 07:39:04 ProxmoxServer kernel: KERNEL supported cpus:
Mar 02 07:39:04 ProxmoxServer kernel:   Intel GenuineIntel
Mar 02 07:39:04 ProxmoxServer kernel:   AMD AuthenticAMD
Mar 02 07:39:04 ProxmoxServer kernel:   Hygon HygonGenuine
Mar 02 07:39:04 ProxmoxServer kernel:   Centaur CentaurHauls
Mar 02 07:39:04 ProxmoxServer kernel:   zhaoxin   Shanghai  
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: Supporting XSAVE feature 0x008: 'MPX bounds registers'
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: Supporting XSAVE feature 0x010: 'MPX CSR'
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: xstate_offset[3]:  576, xstate_sizes[3]:   64
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: xstate_offset[4]:  640, xstate_sizes[4]:   64
Mar 02 07:39:04 ProxmoxServer kernel: x86/fpu: Enabled xstate features 0x1b, context size is 704 bytes, using 'compacted' format.
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-provided physical RAM map:
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000000000000-0x000000000003efff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000000003f000-0x000000000003ffff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000000040000-0x000000000009efff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000000009f000-0x00000000000fffff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000000100000-0x000000000fffffff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000010000000-0x0000000012150fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000012151000-0x00000000774b8fff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000774b9000-0x00000000795b3fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000795b4000-0x0000000079690fff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000079691000-0x00000000799e7fff] ACPI NVS
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000799e8000-0x0000000079e0bfff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000079e0c000-0x0000000079e5dfff] type 20
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000079e5e000-0x000000007a1c8fff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000007a1c9000-0x000000007a1c9fff] ACPI NVS
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000007a1ca000-0x000000007a1f3fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000007a1f4000-0x000000007a769fff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000007a76a000-0x000000007a76bfff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000007a76c000-0x000000007affffff] usable
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x000000007b000000-0x000000007fffffff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000d0000000-0x00000000d0ffffff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000e0000000-0x00000000efffffff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000fe042000-0x00000000fe044fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000fe900000-0x00000000fe902fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000fec00000-0x00000000fec00fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000fed01000-0x00000000fed01fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000fee00000-0x00000000fee00fff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x00000000ff800000-0x00000000ffffffff] reserved
Mar 02 07:39:04 ProxmoxServer kernel: BIOS-e820: [mem 0x0000000100000000-0x000000027fffffff] usable
Mar 02 07:39:04 ProxmoxServer kernel: NX (Execute Disable) protection: active
Mar 02 07:39:04 ProxmoxServer kernel: efi: EFI v2.50 by American Megatrends
Mar 02 07:39:04 ProxmoxServer kernel: efi: TPMFinalLog=0x799b6000 ACPI=0x7999b000 ACPI 2.0=0x7999b000 SMBIOS=0x79c1d000 SMBIOS 3.0=0x79c1c000 ESRT=0x76563798 
Mar 02 07:39:04 ProxmoxServer kernel: secureboot: Secure boot could not be determined (mode 0)
Mar 02 07:39:04 ProxmoxServer kernel: SMBIOS 3.0.0 present.
Mar 02 07:39:04 ProxmoxServer kernel: DMI: Default string Default string/, BIOS 5.12 03/24/2021
Mar 02 07:39:04 ProxmoxServer kernel: tsc: Detected 1497.600 MHz processor
Mar 02 07:39:04 ProxmoxServer kernel: e820: update [mem 0x00000000-0x00000fff] usable ==> reserved
Mar 02 07:39:04 ProxmoxServer kernel: e820: remove [mem 0x000a0000-0x000fffff] usable
Mar 02 07:39:04 ProxmoxServer kernel: last_pfn = 0x280000 max_arch_pfn = 0x400000000
Mar 02 07:39:04 ProxmoxServer kernel: x86/PAT: Configuration [0-7]: WB  WC  UC- UC  WB  WP  UC- WT  
Mar 02 07:39:04 ProxmoxServer kernel: last_pfn = 0x7b000 max_arch_pfn = 0x400000000
Mar 02 07:39:04 ProxmoxServer kernel: found SMP MP-table at [mem 0x000fcc20-0x000fcc2f]
Mar 02 07:39:04 ProxmoxServer kernel: esrt: Reserving ESRT space from 0x0000000076563798 to 0x00000000765637d0.
Mar 02 07:39:04 ProxmoxServer kernel: e820: update [mem 0x76563000-0x76563fff] usable ==> reserved
Mar 02 07:39:04 ProxmoxServer kernel: Using GB pages for direct mapping
Mar 02 07:39:04 ProxmoxServer kernel: secureboot: Secure boot could not be determined (mode 0)
Mar 02 07:39:04 ProxmoxServer kernel: RAMDISK: [mem 0x3161d000-0x34b05fff]
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: Early table checksum verification disabled
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: RSDP 0x000000007999B000 000024 (v02 ALASKA)
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: XSDT 0x000000007999B0B0 0000D4 (v01 ALASKA A M I    01072009 AMI  00010013)
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: FACP 0x00000000799A4AF0 000114 (v06 ALASKA A M I    01072009 AMI  00010013)
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: DSDT 0x000000007999B230 0098BF (v02 ALASKA A M I    01072009 INTL 20160930)
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: FACS 0x00000000799E7080 000040
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: FPDT 0x00000000799A4C10 000044 (v01 ALASKA A M I    01072009 AMI  00010013)
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: FIDT 0x00000000799A4C60 00009C (v01 ALASKA A M I    01072009 AMI  00010013)
Mar 02 07:39:04 ProxmoxServer kernel: ACPI: MCFG 0x00000000799A4D00 00003C (v01 ALASKA A M I    01072009 MSFT 00000097)
 
ich nehme an um ~7:39 wurde ein reset gemacht?

leider sieht man aus den logs nicht viel... was ist das denn für ein system? hat es ein ikvm/ipmi? oder ein display? wenn ja, steht vielleicht mehr dort?
sonst würde ich mal ein upgrade machen (auf kernel 5.15 zb). falls es nicht besser wird, würde ich mal die hardware unter die lupe nehmen
 
ich nehme an um ~7:39 wurde ein reset gemacht?

leider sieht man aus den logs nicht viel... was ist das denn für ein system? hat es ein ikvm/ipmi? oder ein display? wenn ja, steht vielleicht mehr dort?
sonst würde ich mal ein upgrade machen (auf kernel 5.15 zb). falls es nicht besser wird, würde ich mal die hardware unter die lupe nehmen
Ja, der Rest wurde dann durchgeführt.

Leider ist das System ein typischen Konsumersystem. Daher hat es keine nützlichen Features wie ikvm.

Ich werde es erst einmal mit einem Kernel upgrade versuchen und dann mal weiter schauen.
 
ich nehme an um ~7:39 wurde ein reset gemacht?

leider sieht man aus den logs nicht viel... was ist das denn für ein system? hat es ein ikvm/ipmi? oder ein display? wenn ja, steht vielleicht mehr dort?
sonst würde ich mal ein upgrade machen (auf kernel 5.15 zb). falls es nicht besser wird, würde ich mal die hardware unter die lupe nehmen
Hello again,

in der Zwischenzeit hat sich hier einiges ergeben.

Ich habe das System komplett neu installiert. Leider hat dies nicht gebracht. In der Zwischenzeit konnte ich aber mal einen Bild auf die Bildschirmausgabe werfen. Es wird immer wieder die Nachricht
Code:
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
INFO: task pve-firewall:1205 blocked for more than 120 seconds.
Tainted:
P
O
5.13.19-6-pve #1
angezeigt. Hier stehen verschiedenste Prozesse an stelle von pve-firewall:XXXX.

Eine Bedienung des Systems ist über den Terminal möglich gewesen. Hierbei ist mir aufgefallen, dass von dem System aus alle gerate im entsprechenden Netzwerk erreichen konnte. Ausgehende Verbindungen funktionieren also. Ich habe zusätzlich noch einen Blick in /var/log/syslog geworfen. Hier wurde ein Stacktrace sowie weitere Details zu dem blocked for more than 120 seconds angezeigt. Bei einem kopierversucht dieser Datei in einen andren order, stellte ich fest, dass cp diese Datei nicht kopierte und auch nichtmehr auf SIGINT und SIGQUIT reagierte. Daher konnte ich diesen Log nicht sichern. Nach dem Systemneustart, stand dieser nicht mehr im entsprechenden Log. Daher der Sicherungsversuch.

Nach einiger Zeit tauche im Terminal noch die nachricht auf, dass der Dienst journalctrld nicht gestartet werden konnte.
 
Ich hege den Verdacht, dass bei dir die Systemplatte den Geist aufgibt, deswegen der Totalsufall.. hatte ähnliche Symptome, wo sich meine SSD überhitzt und einfach abgeschaltet hat.
 
Ich hege den Verdacht, dass bei dir die Systemplatte den Geist aufgibt, deswegen der Totalsufall.. hatte ähnliche Symptome, wo sich meine SSD überhitzt und einfach abgeschaltet hat.
Das ist aktuell auch meine Vermutung. Muss ich mir im Lauf der nächsten Tage mal genauer anschauen. Das interessante ist nur, dass SMART keinen Verschleiß anzeigt.
 
Ich hege den Verdacht, dass bei dir die Systemplatte den Geist aufgibt, deswegen der Totalsufall.. hatte ähnliche Symptome, wo sich meine SSD überhitzt und einfach abgeschaltet hat.
würde ich auch so interpretieren

Das ist aktuell auch meine Vermutung. Muss ich mir im Lauf der nächsten Tage mal genauer anschauen. Das interessante ist nur, dass SMART keinen Verschleiß anzeigt.
SMART ist leider nicht sehr zuverlässig was sowas angeht, ich hab schon oft hdds/ssd gesehen die laut SMART in ordnung aber trotzdem schon ziemlich am ende waren.
 
Das muss nicht heißen, dass die SSD zwingend hin ist. Wenn der Controller sich aufhängt, ist es eh kein SMART relevanter Eintrag. In manchen Fällen hilft eine Firmwareaktualisierung. Bei mir war es ehe die Abwärme. Mit besseren Durchlüftung ist es nicht mehr vorgekommen.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!