Replication Error

virshling

Well-Known Member
Sep 1, 2018
47
3
48
64
Guten Abend,
vor ca dreieinhalb Stunden hatte ich einen Post verfasst, der nicht angezeigt wurde
weil: "Awaiting approval before being displayed publicly". :confused:
Den Entwurf kann ich nicht mehr aufrufen, also auf ein Neues:

Ich hatte zwei gleichzeitig auftretende Probleme - Zusammenhang unklar - von welchen eines weiterhin besteht
  1. Ich konnte per GUI nicht mehr auf einen der vier Nodes eines Clusters zugreifen, per ssh aber schon. Error 401.
    Das hat sich mittlerweile erledigt, wenn auch ohne mein Zutun. Keine Ahnung warum.
  2. Ein Backup-Job schlug fehl und auch ein Replication-Job
    Beides betrifft dieselbe VM. Zwei Container, die im gleichen Pool liegen, konnten dagegen problemlos auf den selben Node repliziert und gesichert werden.
Die Replikation der VM hing fest, d.h. wurde als laufend angezeigt, allerdings schon 30 Stunden lang. Nur ein Neustart des Ziel-Nodes konnte sie abbrechen.
Erneutes Anstoßen der Replikation erbingt die Fehlermeldung :
Code:
2021-02-07 20:35:07 650-0: end replication job with error: command 'set -o pipefail && pvesm export main:vm-650-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_650-0_1612726501__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=pve-4' root@10.0.0.34 -- pvesm import main:vm-650-disk-0 zfs - -with-snapshots 1 -allow-rename 0' failed: exit code 255

Nun frage ich mich, was diese Meldung wohl bedeutet?


Gruß

Bernhard

Version: pve 6.3, Cluster mit 4 Nodes, kein HA
 
Ich konnte per GUI nicht mehr auf einen der vier Nodes eines Clusters zugreifen, per ssh aber schon. Error 401.
Das hat sich mittlerweile erledigt, wenn auch ohne mein Zutun. Keine Ahnung warum.
Ist die Zeit auf allen Nodes synchron und synchronisieren alle Nodes mit dem selben NTP Server?

Ein Backup-Job schlug fehl und auch ein Replication-Job
Beides betrifft dieselbe VM. Zwei Container, die im gleichen Pool liegen, konnten dagegen problemlos auf den selben Node repliziert und gesichert werden.
steht hierzu etwas relevantes in den logs? Ich würde mir zuerst den output von `dmesg` auf beiden ansehen und falls dort nichts auffälliges steht mal das journal seit dem auftreten des problems - z.b. `journalctl --since '2021-02-07'` (um die logs seit gestern Mitternacht zu sehen)

Ich hoffe das hilft!
 
Vielen Dank für die Antwort. Wenn ich die Zeit per GUI aufrufe und zwischen den Nodes hin und her springe, ist allenfalls ein Unterschied kleiner als ein Sekunde zu bemerken. NTP-Sync muss ich wohl noch einrichten, ntp scheint nicht von Haus aus installiert zu sein. im Journal und mit dmesg habe ich nix gefunden, das mit der Replikation zusammen hängt, verstehe aber auch bei Weitem nicht alles, was ich da lese.
 

Attachments

NTP wird derzeit mit systemd-timesyncd gemacht - da sollte das command `timedatectl status` Auskunft über den NTP-sync geben.


ssh zwischen den nodes funktioniert ohne passwort eingabe? - z.b.:
Code:
/usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=pve-4' root@10.0.0.34

bei dem dmesg+log wäre mir auch nicht direkt was aufgefallen - wie sieht das auf der anderen Node aus?
 
Ja, ssh geht ohne Passwort.

Code:
root@pve-3:~# timedatectl status
               Local time: Mon 2021-02-08 11:58:44 CET
           Universal time: Mon 2021-02-08 10:58:44 UTC
                 RTC time: Mon 2021-02-08 10:58:44
                Time zone: Europe/Berlin (CET, +0100)
System clock synchronized: yes
              NTP service: active
          RTC in local TZ: no

Im Anhang die logs vom Quellrechner. Da scheint schon etwas im Argen, was ich aber auf mein Problem Nr. 2 zurückführe. Das war ein Full-Backup der fraglichen VM auf ein NFS-Storage, ebenfalls auf pve-4. Das Backup brach nach 83% ab weil kein Platz mehr auf dem Ziel sei. Zugegebenermaßen ist der tatsächlich knapp, aber da sich an den zu sichernden VMs/Containern seit Monaten nichts verändert hat und es stets funktionierte, kommt mir das auch spanisch vor. Vielleicht eher ein Kommunikationsproblem. Werde heute Nacht noch ein Full-Backup anstoßen. Aber so viele Fehler gleichzeitig wollte ich gar nicht in einen Thread packen ... .
 

Attachments

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!