Error 401: permission denied sowie Probleme bei Replikation und Backup

virshling · Feb 7, 2021

Guten Abend,

das Thema gab es schon öfter, aber ich habe in den Beiträgen die Lösung nicht gefunden.
Auch ist mir der Zusammenhang der beiden Phänomene unklar, falls es einen gibt. Es ist überhaupt recht konfus.
Situation:
Cluster mit 4 Nodes, kein HA, pve 6.3.
Auf einem zfs-pool laufen eine VM und zwei Container, die alle von pve-3 zu node pve-4 repliziert werden.
Der letzte Replication-Job der VM lief schon über 30 Stunden, wie vorhin bei einer Routine-Prüfung bemerkte. Auch das gestrige Full-Backup der VM - ebenfalls von pve-3 nach pve-4 - schlug fehl. Heute morgen hingegen , also danach, liefen die Full-Backups der Container erfolgreich.
Der betroffene Node beherbergt also nur die Replikationen und Backups, weshalb ich ihn einfach mal rebootet habe - per ssh, weil die GUI keinen Zugriff auf den node erlaubte (401).
Daraufhin war die Replikation wenigstens gestoppt (wäre das auch anders gegangen, pvesr delete half nicht?).
Auf pve-4 konnte ich aber immer noch nicht via GUI zugreifen, weder direkt noch über die anderen nodes. SSH bzw die Webshell der anderen Nodes gingen aber schon.
Das hat sich gerade eben, während ich das hier schreibe auf wundersame Weise von selbst wieder erholt! Aber ein neu angelegter Replication-Job schlagt sofort fehl:

2021-02-07 18:14:07 650-0: end replication job with error: command 'set -o pipefail && pvesm export main:vm-650-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_650-0_1612718041__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=pve-4' root@10.0.0.34 -- pvesm import main:vm-650-disk-0 zfs - -with-snapshots 1 -allow-rename 0' failed: exit code 255

Ein weiteres Full-Backup will ich jetzt gar nicht ausprobieren, das würde so oder so jetzt zu lange brauchen.
Stoße ich aber eine Replikation der Container an, läuft diese in zwei Minuten durch.

Bleibt eine VM, die weder Replizieren, noch Backuppen will und ein 401 der sich eine halbe Stunde nach dem Reboot von selbst heilt.
Hat jemand eine Idee, wie und wo ich nach dem/den Fehler/n suchen soll? Die obige Fehlermeldung sagt mir nix.

Danke

Bernhard

dcsapak · Feb 8, 2021

virshling said:
Aber ein neu angelegter Replication-Job schlagt sofort fehl:

wie sieht denn der ganze task log von so einer replication aus? gibt es syslog/journal einträge am ziel server?

das 401 im cluster könnte ich mir nur durch nicht synchronisierte uhrzeit vorstellen

virshling · Feb 8, 2021

Moin Moin,

hier der Tasklog:

Code:

2021-02-08 08:34:01 650-0: start replication job
2021-02-08 08:34:01 650-0: guest => VM 650, running => 18786
2021-02-08 08:34:01 650-0: volumes => main:vm-650-disk-0
2021-02-08 08:34:03 650-0: create snapshot '__replicate_650-0_1612769641__' on main:vm-650-disk-0
2021-02-08 08:34:03 650-0: using secure transmission, rate limit: none
2021-02-08 08:34:03 650-0: full sync 'main:vm-650-disk-0' (__replicate_650-0_1612769641__)
2021-02-08 08:34:05 650-0: full send of hipspool/vm-650-disk-0@frisch estimated size is 190G
2021-02-08 08:34:05 650-0: send from @frisch to hipspool/vm-650-disk-0@vorUpDate estimated size is 126G
2021-02-08 08:34:05 650-0: send from @vorUpDate to hipspool/vm-650-disk-0@VorUpDate estimated size is 45.4G
2021-02-08 08:34:05 650-0: send from @VorUpDate to hipspool/vm-650-disk-0@vorErforschungGPO10 estimated size is 5.16G
2021-02-08 08:34:05 650-0: send from @vorErforschungGPO10 to hipspool/vm-650-disk-0@__replicate_650-0_1612769641__ estimated size is 16.9G
2021-02-08 08:34:05 650-0: total estimated size is 384G
2021-02-08 08:34:06 650-0: TIME        SENT   SNAPSHOT hipspool/vm-650-disk-0@frisch
2021-02-08 08:34:06 650-0: volume 'hipspool/vm-650-disk-0' already exists
2021-02-08 08:34:06 650-0: warning: cannot send 'hipspool/vm-650-disk-0@frisch': signal received
2021-02-08 08:34:06 650-0: TIME        SENT   SNAPSHOT hipspool/vm-650-disk-0@vorUpDate
2021-02-08 08:34:06 650-0: warning: cannot send 'hipspool/vm-650-disk-0@vorUpDate': Broken pipe
2021-02-08 08:34:06 650-0: TIME        SENT   SNAPSHOT hipspool/vm-650-disk-0@VorUpDate
2021-02-08 08:34:06 650-0: warning: cannot send 'hipspool/vm-650-disk-0@VorUpDate': Broken pipe
2021-02-08 08:34:06 650-0: TIME        SENT   SNAPSHOT hipspool/vm-650-disk-0@vorErforschungGPO10
2021-02-08 08:34:06 650-0: warning: cannot send 'hipspool/vm-650-disk-0@vorErforschungGPO10': Broken pipe
2021-02-08 08:34:06 650-0: TIME        SENT   SNAPSHOT hipspool/vm-650-disk-0@__replicate_650-0_1612769641__
2021-02-08 08:34:06 650-0: warning: cannot send 'hipspool/vm-650-disk-0@__replicate_650-0_1612769641__': Broken pipe
2021-02-08 08:34:06 650-0: cannot send 'hipspool/vm-650-disk-0': I/O error
2021-02-08 08:34:06 650-0: command 'zfs send -Rpv -- hipspool/vm-650-disk-0@__replicate_650-0_1612769641__' failed: exit code 1
2021-02-08 08:34:06 650-0: delete previous replication snapshot '__replicate_650-0_1612769641__' on main:vm-650-disk-0
2021-02-08 08:34:06 650-0: end replication job with error: command 'set -o pipefail && pvesm export main:vm-650-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_650-0_1612769641__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=pve-4' root@10.0.0.34 -- pvesm import main:vm-650-disk-0 zfs - -with-snapshots 1 -allow-rename 0' failed: exit code 255

sieht so aus, als hätte es mit den Snapshots zu tun, dachte gar nicht, dass die mit repliziert werden. Soll ich die mal löschen?

Edit:
Snapshots gelöscht, erfolglos:

Code:

2021-02-08 09:05:01 650-0: start replication job
2021-02-08 09:05:01 650-0: guest => VM 650, running => 18786
2021-02-08 09:05:01 650-0: volumes => main:vm-650-disk-0
2021-02-08 09:05:03 650-0: create snapshot '__replicate_650-0_1612771501__' on main:vm-650-disk-0
2021-02-08 09:05:03 650-0: using secure transmission, rate limit: none
2021-02-08 09:05:03 650-0: full sync 'main:vm-650-disk-0' (__replicate_650-0_1612771501__)
2021-02-08 09:05:05 650-0: full send of hipspool/vm-650-disk-0@__replicate_650-0_1612771501__ estimated size is 287G
2021-02-08 09:05:05 650-0: total estimated size is 287G
2021-02-08 09:05:06 650-0: TIME        SENT   SNAPSHOT hipspool/vm-650-disk-0@__replicate_650-0_1612771501__
2021-02-08 09:05:06 650-0: volume 'hipspool/vm-650-disk-0' already exists
2021-02-08 09:05:06 650-0: warning: cannot send 'hipspool/vm-650-disk-0@__replicate_650-0_1612771501__': signal received
2021-02-08 09:05:06 650-0: cannot send 'hipspool/vm-650-disk-0': I/O error
2021-02-08 09:05:06 650-0: command 'zfs send -Rpv -- hipspool/vm-650-disk-0@__replicate_650-0_1612771501__' failed: exit code 1
2021-02-08 09:05:06 650-0: delete previous replication snapshot '__replicate_650-0_1612771501__' on main:vm-650-disk-0
2021-02-08 09:05:07 650-0: end replication job with error: command 'set -o pipefail && pvesm export main:vm-650-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_650-0_1612771501__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=pve-4' root@10.0.0.34 -- pvesm import main:vm-650-disk-0 zfs - -with-snapshots 1 -allow-rename 0' failed: exit code 255

Hier noch das syslog mit der letzten Repllikation:

Code:

Feb  8 09:05:16 pve-4 systemd[2937]: Started Exit the Session.
Feb  8 09:05:16 pve-4 systemd[2937]: Reached target Exit the Session.
Feb  8 09:05:16 pve-4 systemd[1]: user@0.service: Succeeded.
Feb  8 09:05:16 pve-4 systemd[1]: Stopped User Manager for UID 0.
Feb  8 09:05:16 pve-4 systemd[1]: Stopping User Runtime Directory /run/user/0...
Feb  8 09:05:16 pve-4 systemd[1]: run-user-0.mount: Succeeded.
Feb  8 09:05:16 pve-4 systemd[1]: user-runtime-dir@0.service: Succeeded.
Feb  8 09:05:16 pve-4 systemd[1]: Stopped User Runtime Directory /run/user/0.
Feb  8 09:05:16 pve-4 systemd[1]: Removed slice User Slice of UID 0.
Feb  8 09:06:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:06:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:06:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
Feb  8 09:07:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:07:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:07:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
Feb  8 09:08:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:08:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:08:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
Feb  8 09:09:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:09:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:09:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
Feb  8 09:10:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:10:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:10:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
Feb  8 09:11:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:11:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:11:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
Feb  8 09:11:02 pve-4 pmxcfs[1229]: [status] notice: received log
Feb  8 09:11:46 pve-4 systemd[1]: Created slice User Slice of UID 0.
Feb  8 09:11:46 pve-4 systemd[1]: Starting User Runtime Directory /run/user/0...
Feb  8 09:11:46 pve-4 systemd[1]: Started User Runtime Directory /run/user/0.
Feb  8 09:11:46 pve-4 systemd[1]: Starting User Manager for UID 0...
Feb  8 09:11:46 pve-4 systemd[4344]: Reached target Paths.
Feb  8 09:11:46 pve-4 systemd[4344]: Listening on GnuPG cryptographic agent and passphrase cache (restricted).
Feb  8 09:11:46 pve-4 systemd[4344]: Listening on GnuPG cryptographic agent and passphrase cache (access for web browsers).
Feb  8 09:11:46 pve-4 systemd[4344]: Listening on GnuPG network certificate management daemon.
Feb  8 09:11:46 pve-4 systemd[4344]: Reached target Timers.
Feb  8 09:11:46 pve-4 systemd[4344]: Listening on GnuPG cryptographic agent and passphrase cache.
Feb  8 09:11:46 pve-4 systemd[4344]: Starting D-Bus User Message Bus Socket.
Feb  8 09:11:46 pve-4 systemd[4344]: Listening on GnuPG cryptographic agent (ssh-agent emulation).
Feb  8 09:11:46 pve-4 systemd[4344]: Listening on D-Bus User Message Bus Socket.
Feb  8 09:11:46 pve-4 systemd[4344]: Reached target Sockets.
Feb  8 09:11:46 pve-4 systemd[4344]: Reached target Basic System.
Feb  8 09:11:46 pve-4 systemd[4344]: Reached target Default.
Feb  8 09:11:46 pve-4 systemd[1]: Started User Manager for UID 0.
Feb  8 09:11:46 pve-4 systemd[4344]: Startup finished in 127ms.
Feb  8 09:11:46 pve-4 systemd[1]: Started Session 161 of user root.
Feb  8 09:12:00 pve-4 systemd[1]: Starting Proxmox VE replication runner...
Feb  8 09:12:01 pve-4 systemd[1]: pvesr.service: Succeeded.
Feb  8 09:12:01 pve-4 systemd[1]: Started Proxmox VE replication runner.
(END)

Die Zeiten stimmen auf den Nodes übrigens überein.

Search

Search

Error 401: permission denied sowie Probleme bei Replikation und Backup

virshling

Well-Known Member

dcsapak

Proxmox Staff Member

virshling

Well-Known Member