Promox VM Backups schlagen fehl (Dbus error)

helsinkisystems

New Member
Jan 16, 2024
11
0
1
Hallo,


bei uns schlagen auf unserem office-proxmox die backups von vms(vermutlich nur die die die aus sind) fehl mit folgender meldung:


Code:
INFO: Starting Backup of VM 210 (qemu)
INFO: Backup started at 2024-11-07 22:34:01
INFO: status = stopped
INFO: backup mode: stop
INFO: ionice priority: 7
INFO: VM Name: rrs-temp-router
INFO: include disk 'scsi0' 'local-zfs:vm-210-disk-0' 32G
INFO: creating Proxmox Backup Server archive 'vm/210/2024-11-07T21:34:01Z'
INFO: starting kvm to execute backup task
ERROR: Backup of VM 210 failed - start failed: org.freedesktop.DBus.Error.Disconnected: Connection is closed
INFO: Failed at 2024-11-07 22:34:02


Auf dem server sind ca 35 VMs, die meisten davon sind aus und werden nur nach bedarf angeschaltet und einige sind permanent an.

Den lösungsanweisungen hier sind wir gefolgt:
https://forum.proxmox.com/threads/backup-randomly-stops.75252/

Ist der PBS Updated: Ja, ist version 3.2-7 und apt update zeigt an dass keine updates mehr verfügbar sind, repositories sind aktiv
Zusätzlich hier noch die package-versionen vonb allem was proxmox im namen hat.
Code:
libproxmox-acme-plugins/stable,now 1.5.1 all [installed]
proxmox-archive-keyring/stable,now 3.0 all [installed]
proxmox-backup-client/stable,now 3.2.7-1 amd64 [installed]
proxmox-backup-docs/stable,now 3.2.7-1 all [installed]
proxmox-backup-server/stable,now 3.2.7-1 amd64 [installed]
proxmox-backup/stable,now 3.2.0 all [installed]
proxmox-default-kernel/stable,now 1.1.0 all [installed,automatic]
proxmox-kernel-6.8.12-2-pve-signed/stable,now 6.8.12-2 amd64 [installed,automatic]
proxmox-kernel-6.8.12-3-pve-signed/stable,now 6.8.12-3 amd64 [installed,automatic]
proxmox-kernel-6.8/stable,now 6.8.12-3 all [installed,automatic]
proxmox-kernel-helper/stable,now 8.1.0 all [installed,automatic]
proxmox-mail-forward/stable,now 0.2.3 amd64 [installed,automatic]
proxmox-mini-journalreader/stable,now 1.4.0 amd64 [installed]
proxmox-offline-mirror-docs/stable,now 0.6.7 all [installed,automatic]
proxmox-offline-mirror-helper/stable,now 0.6.7 amd64 [installed,automatic]
proxmox-termproxy/stable,now 1.1.0 amd64 [installed,automatic]
proxmox-widget-toolkit/stable,now 4.2.4 all [installed]

Versionen von libproxmox-backup-qemu0 und proxmox-backup-client auf dem PVE-Host:

hier sind die versionen von allem was proxmox im namen hat:
Code:
libproxmox-acme-perl/stable,now 1.5.1 all [installed]
libproxmox-acme-plugins/stable,now 1.5.1 all [installed]
libproxmox-backup-qemu0/stable,now 1.4.1 amd64 [installed]
libproxmox-rs-perl/stable,now 0.3.4 amd64 [installed]
proxmox-archive-keyring/stable,now 3.0 all [installed]
proxmox-backup-client/stable,now 3.2.7-1 amd64 [installed]
proxmox-backup-file-restore/stable,now 3.2.7-1 amd64 [installed]
proxmox-backup-restore-image/stable,now 0.6.1 amd64 [installed]
proxmox-default-kernel/stable,now 1.1.0 all [installed,automatic]
proxmox-firewall/stable,now 0.5.0 amd64 [installed,automatic]
proxmox-kernel-6.2.16-20-pve/stable,now 6.2.16-20 amd64 [installed,automatic]
proxmox-kernel-6.2/stable,now 6.2.16-20 all [installed]
proxmox-kernel-6.8.12-2-pve-signed/stable,now 6.8.12-2 amd64 [installed,automatic]
proxmox-kernel-6.8.12-3-pve-signed/stable,now 6.8.12-3 amd64 [installed,automatic]
proxmox-kernel-6.8/stable,now 6.8.12-3 all [installed,automatic]
proxmox-kernel-helper/stable,now 8.1.0 all [installed,automatic]
proxmox-mail-forward/stable,now 0.2.3 amd64 [installed,automatic]
proxmox-mini-journalreader/stable,now 1.4.0 amd64 [installed]
proxmox-offline-mirror-docs/stable,now 0.6.7 all [installed,automatic]
proxmox-offline-mirror-helper/stable,now 0.6.7 amd64 [installed,automatic]
proxmox-termproxy/stable,now 1.1.0 amd64 [installed,automatic]
proxmox-ve/stable,now 8.2.0 all [installed]
proxmox-websocket-tunnel/stable,now 0.2.0-1 amd64 [installed]
proxmox-widget-toolkit/stable,now 4.2.4 all [installed]

Zusätzliche Software:
mir ist in den installed packages nichts aufgefallen was nonstandard ist

Ist der host von der CPU überladen?
Maximum CPU-Auslastung während des backup-jobs ist 85 prozent, kann also sein, ist aber das maximum, nicht das average.
Während des Backups laufen keine CPU-Workloads

Der PBS hat eine maximale CPU-Auslastung von 40% während des jobs



Der beschriebene Patch (https://forum.proxmox.com/threads/backup-randomly-stops.75252/) wurde auch mal eingebaut, da bleibt der Backup-job dann bei "INFO: starting kvm to execute backup task" stundenlang hängen


Die Konfig des hosts ist:
CSS:
CPU:         Ryzen5 5600G
RAM:         64G
Storage:     1x Samsung 990 Pro 4tb ZFS als VMdisk Storage
            2x Seagate 16tb HDD
            1x Ein Proxmox Backup Server
Network:    Realtek RTL8111/8168/8411

Proxmox Version:    pve-manager/8.2.7/3e0176e6bb2ade3b
                    Linux 6.8.12-3-pve
 
Hi,
für die Versionen bitte proxmox-backup-manager versions --verbose auf PBS und pveversion -v auf PVE benutzen. Könntest Du den Teil vom Host-Journal/System-Log rund um den problematischen Zeitpunkt herum senden? Tritt das Problem auch auf, wenn eine andere VM während des Backups gestartet wird (also nicht die, die gerade gesichert wird)? Die Konfiguration einer betroffenen VM wäre auch interessant: qm config 210
 
Code:
proxmox-backup-manager versions --verbose auf PBS:



proxmox-backup                     3.2.0        running kernel: 6.8.12-3-pve
proxmox-backup-server              3.2.8-1      running version: 3.2.8     
proxmox-kernel-helper              8.1.0                                   
pve-kernel-5.15                    7.4-14                                   
proxmox-kernel-6.8                 6.8.12-4                                 
proxmox-kernel-6.8.12-4-pve-signed 6.8.12-4                                 
proxmox-kernel-6.8.12-3-pve-signed 6.8.12-3                                 
pve-kernel-5.15.158-1-pve          5.15.158-1                               
pve-kernel-5.15.35-1-pve           5.15.35-3                               
ifupdown2                          3.2.0-1+pmx9                             
libjs-extjs                        7.0.0-4                                 
proxmox-backup-docs                3.2.8-1                                 
proxmox-backup-client              3.2.8-1                                 
proxmox-mail-forward               0.2.3                                   
proxmox-mini-journalreader         1.4.0                                   
proxmox-offline-mirror-helper      0.6.7                                   
proxmox-widget-toolkit             4.2.4                                   
pve-xtermjs                        5.3.0-3                                 
smartmontools                      7.3-pve1                                 
zfsutils-linux                     2.2.6-pve1



Code:
pveversion -v auf PVE



proxmox-ve: 8.2.0 (running kernel: 6.8.12-3-pve)
pve-manager: 8.2.7 (running version: 8.2.7/3e0176e6bb2ade3b)
proxmox-kernel-helper: 8.1.0
pve-kernel-5.15: 7.4-14
proxmox-kernel-6.8: 6.8.12-4
proxmox-kernel-6.8.12-4-pve-signed: 6.8.12-4
proxmox-kernel-6.8.12-3-pve-signed: 6.8.12-3
proxmox-kernel-6.2.16-20-pve: 6.2.16-20
proxmox-kernel-6.2: 6.2.16-20
pve-kernel-5.15.158-1-pve: 5.15.158-1
pve-kernel-5.15.30-2-pve: 5.15.30-3
ceph-fuse: 16.2.11+ds-2
corosync: 3.1.7-pve3
criu: 3.17.1-2
glusterfs-client: 10.3-5
ifupdown2: 3.2.0-1+pmx9
ksm-control-daemon: 1.5-1
libjs-extjs: 7.0.0-4
libknet1: 1.28-pve1
libproxmox-acme-perl: 1.5.1
libproxmox-backup-qemu0: 1.4.1
libproxmox-rs-perl: 0.3.4
libpve-access-control: 8.1.4
libpve-apiclient-perl: 3.3.2
libpve-cluster-api-perl: 8.0.8
libpve-cluster-perl: 8.0.8
libpve-common-perl: 8.2.5
libpve-guest-common-perl: 5.1.4
libpve-http-server-perl: 5.1.2
libpve-network-perl: 0.9.8
libpve-rs-perl: 0.8.10
libpve-storage-perl: 8.2.5
libspice-server1: 0.15.1-1
lvm2: 2.03.16-2
lxc-pve: 6.0.0-1
lxcfs: 6.0.0-pve2
novnc-pve: 1.4.0-4
proxmox-backup-client: 3.2.8-1
proxmox-backup-file-restore: 3.2.8-1
proxmox-firewall: 0.5.0
proxmox-kernel-helper: 8.1.0
proxmox-mail-forward: 0.2.3
proxmox-mini-journalreader: 1.4.0
proxmox-offline-mirror-helper: 0.6.7
proxmox-widget-toolkit: 4.2.4
pve-cluster: 8.0.8
pve-container: 5.2.0
pve-docs: 8.2.3
pve-edk2-firmware: 4.2023.08-4
pve-esxi-import-tools: 0.7.2
pve-firewall: 5.0.7
pve-firmware: 3.14-1
pve-ha-manager: 4.0.5
pve-i18n: 3.2.4
pve-qemu-kvm: 9.0.2-3
pve-xtermjs: 5.3.0-3
qemu-server: 8.2.4
smartmontools: 7.3-pve1
spiceterm: 3.3.0
swtpm: 0.8.0+pve1
vncterm: 1.8.0
zfsutils-linux: 2.2.6-pve1


Die config von vm 210:

Es ist allerdings anzumerken dass mehr als eine vm diesen fehler hat, icht immer die gleichen, numero 210 ist nur den den ich halt kopiert habe


Code:
boot: order=scsi0;ide2;net0
cores: 2
ide2: local:iso/helsinkiso-helsinki-systems-22.11-x86_64-linux.iso,media=cdrom,size=891M
memory: 4096
meta: creation-qemu=7.2.0,ctime=1684501991
name: rrs-temp-router
net0: virtio=CE:63:83:0F:99:B1,bridge=vmbr2
net1: virtio=52:22:DD:FA:29:83,bridge=vmbr3000
numa: 0
ostype: l26
scsi0: local-zfs:vm-210-disk-0,iothread=1,size=32G
scsihw: virtio-scsi-single
smbios1: uuid=b21e800f-1271-4a3e-b7d4-2e10ee08a53c
sockets: 1
vmgenid: 48319b8c-8664-4e86-bb24-e1b057400c34



einen link zu dem journal log für die stunde um den error hab ich hier:
https://nc.helsinki.tools/s/ZtwFtRkGeyGBx2Z
und der zugehörige log des jobs
https://nc.helsinki.tools/s/JLwYe7B9KHS6La3
während dieses backuplaufes waren 5 vms an so wie es aussieht


Ein starten einer vm während der fehler bei einer vm nach der anderen auftritt hat das verhalten nicht beeinflusst

trotzdem hier der journal log während des versuches dabei eine vm zu starten, der start der vm war um 13:22:27
journal: https://nc.helsinki.tools/s/PCgYxPG7jFyF5JF
backupjob: https://nc.helsinki.tools/s/ZnRjRECnqTneLMZ
 
Ist möglicherweise das Paket udisks2 auf dem Server installiert? Das hat in der Vergangenheit oft Probleme gemacht.

Es klingt jedenfalls danach als wäre der DBus überlastet.

Den DBus könntest Du mit dbus-monitor --system --profile &> /tmp/dbuslogfile während dem Backup monitoren. Aber am besten die Größe vom Log-File im Auge behalten, weil es könnte schnell groß werden.

Andernfalls, vielleicht hilft ein Ratelimit beim Backup-Job zu setzen?
 
udisks2 Ist nicht installiert

und viel spaß mit 200mb an log file

https://nc.helsinki.tools/s/56MbzEeEpDfpJio

ein ratelimit auf dem backup-job von 100Mb habe ich schon probiert, da ich auch vermutete dass der dbus überlastet ist, das hat aber nichts gebracht. ich habe auch dem dbus mehr ressourcen in seiner konfig gegeben, hat er aber nicht gemocht und dann sind backup jobs gleich bei starting kvm hängen geblieben, also hab ich die änderung rückgängig gemacht. Welche ressourcenerhöhung bzw welches ratelimit wäre sinnvoll noch zu probieren?
 
Last edited:
Auf den ersten Blick scheinen die ganzen Messages schon mit Disken zu tun zu haben. Ist vielleicht ein ähnlicher Service wie udisks2 installiert?

Mit
Code:
dbus-send --system --print-reply --dest=org.freedesktop.DBus /org/freedesktop/DBus org.freedesktop.DBus.GetConnectionUnixProcessID 'string::1.39'
sollte eine Prozess-ID zurückkommen. Welchem Prozess gehört die?
 
Code:
# dbus-send --system --print-reply --dest=org.freedesktop.DBus /org/freedesktop/DBus org.freedesktop.DBus.GetConnectionUnixProcessID 'string::1.39'
Error org.freedesktop.DBus.Error.NameHasNoOwner: Could not get PID of name ':1.39': no such name
[1]    1148051 exit 1     dbus-send --system --print-reply --dest=org.freedesktop.DBus   'string::1.39'


zu der hier gegebenen PID(1148051) existiert natürlich auch danach kein prozess, da der da beendet ist
 
Code:
Could not get PID of name ':1.39': no such name
Das von der Shell ist nicht die PID, die uns interessiert hätte. Der Befehl selbst hat keine ausgegeben.

Was sagt denn:
Code:
dbus-send --system --print-reply --dest=org.freedesktop.DBus /org/freedesktop/DBus org.freedesktop.DBus.ListNames
und vielleicht mal alle Prozesse auflisten
Code:
ps faxl
 
Code:
# dbus-send --system --print-reply --dest=org.freedesktop.DBus /org/freedesktop/DBus org.freedesktop.DBus.ListNames
method return time=1732023082.821831 sender=org.freedesktop.DBus -> destination=:1.42 serial=3 reply_serial=2
   array [
      string "org.freedesktop.DBus"
      string "org.freedesktop.login1"
      string "org.freedesktop.systemd1"
      string ":1.42"
      string ":1.28"
      string ":1.0"
      string ":1.1"
      string ":1.2"
   ]


und das hier, wobei hier ein paar vmkonfigs praktisch mit drin sind, weil kvm, die hab ich gekürzt, aber der eintrag ist noch da, nur ohne extra zeug hinten dran

https://nc.helsinki.tools/s/8Z5rWrHcKk9GroH
 
Code:
# dbus-send --system --print-reply --dest=org.freedesktop.DBus /org/freedesktop/DBus org.freedesktop.DBus.ListNames
method return time=1732023082.821831 sender=org.freedesktop.DBus -> destination=:1.42 serial=3 reply_serial=2
   array [
      string "org.freedesktop.DBus"
      string "org.freedesktop.login1"
      string "org.freedesktop.systemd1"
      string ":1.42"
      string ":1.28"
      string ":1.0"
      string ":1.1"
      string ":1.2"
   ]
Ja, das 1.39, das für die ganzen Log-Einträge verantwortlich war, scheint da nicht auf.

Was ist mit den Monitoring-Tools:
Code:
/usr/local/bin/tacticalagent
/opt/tacticalmesh/meshagent
/opt/NinjaRMMAgent/programfiles/ninjarmm-linagent
Benutzen diese DBus?
 
die monitoring tools sind auf vielen anderen proxmoxen die wir am laufen haben auch drauf, die oftmals auch direkt auf den selben backup-server backuppen, und machen sonst keine probleme. Ob die Dbus verwenden kann ich nicht sagen, dass muss ich deren support fragen aber die vermuting geht gegen nein

und dass 1.39 nicht drauf ist, ist das problematisch, könnte das unser problem verursachen?
 
Ich würde vermuten, dass :1.39 halt sehr kurzlebig sein könnte und immer wieder neu reinkommt. Gibt es mehr Glück mit dem Kommando während des Backups?

Ich kann nur sagen, was ich sehe, und zwar dass es massiv viele DBus-Messages von :1.39 gibt, die eben Disk-Pfade unter /dev referenzieren. Z.B. auch
Code:
/org/freedesktop/systemd1/unit/dev_2ddisk_2dby_5cx2dpartlabel_2dhassos_5cx2dsystem1_2edevice

Irgendwas das diesbezüglich anders konfiguriert sein könnte, wild geraten udev oder ähnlich?
 
Die udev configuration habe ich jetzt auch mal durchgeschaut, die configdateien in `/etc/udev/` und den unterverzeichnissen sind alle leer, bzw bestehen nur aus auskommentierten zeilen. Das einzige was eventuell mit udev zu tun hat, ist diese konfiguratuion in unserem setup:

1732629560340.png
 
@fiona da ich jetzt eine woche nix gehört habe und auch von diesem foreneintrag das letzte mal keine benachrichtigung bekommen habe nehme ich an, dass die benachrichtigungen hier aus sind, deshalb dieser ping.

Das Problem besteht weiterhin und ich habe weiterhin keinen erfolg 1.39 irgendwie auszufragen
 
Benachrichtigungen sind nicht aus, ich hatte nur keine konkreten Ideen und es gibt genug andere Threads, die Aufmerksamkeit brauchen. Für gesicherte Antwort-Zeiten und falls ein genauer Blick auf die Maschine geworfen werden soll zur Analyse, bitte den Enterprise-Support kontaktieren.

Was sagen denn
Code:
busctl --full --no-pager --system
busctl --full --no-pager --user
?
 
Code:
root@office-proxmox:~ # busctl --full --no-pager --system
NAME                          PID PROCESS         USER CONNECTION    UNIT                        SESSION DESCRIPTION
:1.0                            1 systemd         root :1.0          init.scope                  -       -         
:1.1                         1901 systemd-logind  root :1.1          systemd-logind.service      -       -         
:1.130                    2141425 systemd         root :1.130        user@0.service              -       -         
:1.137                    2141530 busctl          root :1.137        session-2903.scope          2903    -         
:1.2                         2114 unattended-upgr root :1.2          unattended-upgrades.service -       -         
org.freedesktop.DBus            1 systemd         root -             init.scope                  -       -         
org.freedesktop.hostname1       - -               -    (activatable) -                           -       -         
org.freedesktop.locale1         - -               -    (activatable) -                           -       -         
org.freedesktop.login1       1901 systemd-logind  root :1.1          systemd-logind.service      -       -         
org.freedesktop.network1        - -               -    (activatable) -                           -       -         
org.freedesktop.systemd1        1 systemd         root :1.0          init.scope                  -       -         
org.freedesktop.timedate1       - -               -    (activatable) -                           -       -         
root@office-proxmox:~ # busctl --full --no-pager --user
NAME                         PID PROCESS USER CONNECTION    UNIT               SESSION DESCRIPTION
:1.0                     2141627 busctl  root :1.0          session-2903.scope 2903    -         
org.freedesktop.DBus     2141425 systemd root -             user@0.service     -       -         
org.freedesktop.systemd1       - -       -    (activatable) -                  -       -
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!