Proxmox hängt sich bei Backupversuch komplett auf

vord3nk3n

New Member
Jan 20, 2023
4
0
1
Hallo zusammen,

diese Nacht hat sich meine Proxmox VE, beim versuch die täglichen Backups meiner VMs durchzuführen, anscheinend komplett aufgehangen.
Da ich Proxmox headless auf einem NUC betreibe, konnte ich leider auch nicht sehen was los ist, über Netzwerk kam ich auch an nichts mehr ran.
Proxmox konnte weder im LAN gepingt werden, noch tauche es in meiner Fritzbox unter Geräte auf. Ich konnte es "sicher" herunterfahren, indem ich den Strom zur USV kappe und warte bis diese dann den Host herunterfährt. Nach diesem Neustart kam ich dann auch wieder aufs Proxmox Web-UI und alle VMs drauf, nur habe ich jetzt angst dass das nicht das letzte mal ist und das würde ich gern vermeiden bzw. den Fehler finden.

Anbei der Ausschnitt aus den Logs:

Code:
Jan 20 03:20:10 pve smartd[709]: Device: /dev/sda [SAT], is in STANDBY mode, suspending checks
Jan 20 03:50:11 pve smartd[709]: Device: /dev/sda [SAT], is back in ACTIVE or IDLE mode, resuming checks (1 check skipped)
Jan 20 03:50:11 pve smartd[709]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 178 to 179
Jan 20 04:00:01 pve pvescheduler[3681031]: <root@pam> starting task UPID:pve:00382B08:075D134A:63CA03B1:vzdump::root@pam:
Jan 20 04:00:01 pve pvescheduler[3681032]: INFO: starting new backup job: vzdump --notes-template '{{guestname}}' --mailnotification always --quiet 1 --compress zstd --storage backup-dir --mode snapshot --all 1
Jan 20 04:00:01 pve pvescheduler[3681032]: INFO: Starting Backup of VM 100 (qemu)
Jan 20 04:00:24 pve pvescheduler[3681032]: INFO: Finished Backup of VM 100 (00:00:23)
Jan 20 04:00:24 pve pvescheduler[3681032]: INFO: Starting Backup of VM 101 (qemu)
-- Reboot --
Jan 20 10:36:16 pve kernel: Linux version 5.15.83-1-pve (build@proxmox) (gcc (Debian 10.2.1-6) 10.2.1 20210110, GNU ld (GNU Binutils for Debian) 2.35.2) #1 SMP PVE 5.15.83-1 (2022-12-15T00:00Z) ()
Jan 20 10:36:16 pve kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-5.15.83-1-pve root=/dev/mapper/pve-root ro quiet
Jan 20 10:36:16 pve kernel: KERNEL supported cpus:
Jan 20 10:36:16 pve kernel:   Intel GenuineIntel
Jan 20 10:36:16 pve kernel:   AMD AuthenticAMD
Jan 20 10:36:16 pve kernel:   Hygon HygonGenuine
Jan 20 10:36:16 pve kernel:   Centaur CentaurHauls
Jan 20 10:36:16 pve kernel:   zhaoxin   Shanghai

Falls gewünscht kann ich auch noch andere Logs zur Verfügung stellen.

Vielen Dank schonmal!!


Hardware: Intel NUC 10.Gen
Software: Proxmox 7.3-4
Backups über USB auf eine externe Festplatte
 
Was sagt denn deine "/etc/pve/storage.cfg"? Hast du da eine Zeile "is_mountpoint: 1" für den Directory Storage der auf deine USB HDD zeigt? Wenn nicht und du dann ein Backup ausführst, während die USB HDD nicht gemountet ist, landen alle Backups auf dem Root-Dateisystem, anstatt auf der USB-HDD und sobald das Root-Dateisystem dann zu 100% voll ist klappen Dinge wie webUI Login und Co nicht mehr.
Würde ich also mal gucken, wie voll da dein Root-Dateisystem gerade ist.
 
Last edited:
Hi @Dunuin, danke für deine schnelle Antwort. Die besagte Config habe ich dir angehängt:

Code:
root@pve:~# cat /etc/pve/storage.cfg
dir: local
        path /var/lib/vz
        content vztmpl,iso,backup

lvmthin: local-lvm
        thinpool data
        vgname pve
        content rootdir,images

dir: backup-dir
        path /mnt/pve/backup-dir
        content images,iso,vztmpl,snippets,backup,rootdir
        is_mountpoint 1
        nodes pve

is_mountpoint 1 habe ich drin.

local hat noch knapp 100gb frei, local-lvm ca 800 - daran kann es also eigentlich nicht liegen. backup-dir ist auch noch genug platz für etliche backups...

Smart-status der HDD ist: PASSED, also alles gut soweit. Selbst wenn die externe Platte ne Macke hat, dürfte sich doch nicht das komplette VE deswegen aufhängen, oder?!
Memtest habe ich noch nicht laufen lassen, das könnte ich mal machen :)
 
Last edited:
Nutzt die USB-HDD SMR? Habe hier auch eine SMR HDD, die kann so langsam werden, dass da die Mittlere Reaktionszeit von wenigen Millisekunden auf mehrere Minuten einbricht, sobald man mal mehr als wenige GB auf einmal schreiben will und dann der CMR-Cache vollläuft. Das hat dann hier auch gerne den Rechner über viele Stunden komplett unnutzbar gemacht, dass der abgestürzt/eingefroren wirkte.

USB-HDD ist laut SMART noch im guten Zustand?
Hast du mal Memtest86+ über Nacht laufen lassen? Defekter RAM sorgt gerne auch mal für Abstüze.

Aber wenn die USV den noch runterfahren konnte, dann war das vielleicht eher ein Netzwerkproblem? Sonst hätte PVE auf den Shutdown-Befehl des USV clients ja vermutlich auch nicht reagiert, wenn sich PVE komplett aufgehängt hätte.
 
Last edited:
Also ehrlich gesagt weiß ich auch nicht ganz genau, ob der NUC sich "korrekt" heruntergefahren hat durch den Befehl des USV - kann man das sonst irgendwo nachlesen? Im Syslog steht halt nur so viel wie ich im Ausgangspost schon gepostet habe und während die USV ausgegangen ist, war ich nicht zuhause.
 
Also das Log sieht nach einem Hardreset aus. Sonst müssten da vor dem reboot eigentlich etliche Zeilen sein von sich beendenden PVE services.
 
Das dachte ich mir auch. Die Logs vor diesem Vorfall zeigen auch mindest einmal pro Stunde einen Eintrag, sprich es muss sich komplett diese Nacht um 4 schon komplett aufgegangen haben... Sieht also eher danach aus, als könnte man das nicht rausfinden?
Werde mir mal einen 2. Monitor beschaffen, damit ich beim nächsten mal lokal am Gerät schauen kann, evtl. sieht man dort ja was.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!