Guten Abend,
das Thema gab es schon öfter, aber ich habe in den Beiträgen die Lösung nicht gefunden.
Auch ist mir der Zusammenhang der beiden Phänomene unklar, falls es einen gibt. Es ist überhaupt recht konfus.
Situation:
Cluster mit 4 Nodes, kein HA, pve 6.3.
Auf einem zfs-pool laufen eine VM und zwei Container, die alle von pve-3 zu node pve-4 repliziert werden.
Der letzte Replication-Job der VM lief schon über 30 Stunden, wie vorhin bei einer Routine-Prüfung bemerkte. Auch das gestrige Full-Backup der VM - ebenfalls von pve-3 nach pve-4 - schlug fehl. Heute morgen hingegen , also danach, liefen die Full-Backups der Container erfolgreich.
Der betroffene Node beherbergt also nur die Replikationen und Backups, weshalb ich ihn einfach mal rebootet habe - per ssh, weil die GUI keinen Zugriff auf den node erlaubte (401).
Daraufhin war die Replikation wenigstens gestoppt (wäre das auch anders gegangen, pvesr delete half nicht?).
Auf pve-4 konnte ich aber immer noch nicht via GUI zugreifen, weder direkt noch über die anderen nodes. SSH bzw die Webshell der anderen Nodes gingen aber schon.
Das hat sich gerade eben, während ich das hier schreibe auf wundersame Weise von selbst wieder erholt! Aber ein neu angelegter Replication-Job schlagt sofort fehl:
Ein weiteres Full-Backup will ich jetzt gar nicht ausprobieren, das würde so oder so jetzt zu lange brauchen.
Stoße ich aber eine Replikation der Container an, läuft diese in zwei Minuten durch.
Bleibt eine VM, die weder Replizieren, noch Backuppen will und ein 401 der sich eine halbe Stunde nach dem Reboot von selbst heilt.
Hat jemand eine Idee, wie und wo ich nach dem/den Fehler/n suchen soll? Die obige Fehlermeldung sagt mir nix.
Danke
Bernhard
das Thema gab es schon öfter, aber ich habe in den Beiträgen die Lösung nicht gefunden.
Auch ist mir der Zusammenhang der beiden Phänomene unklar, falls es einen gibt. Es ist überhaupt recht konfus.
Situation:
Cluster mit 4 Nodes, kein HA, pve 6.3.
Auf einem zfs-pool laufen eine VM und zwei Container, die alle von pve-3 zu node pve-4 repliziert werden.
Der letzte Replication-Job der VM lief schon über 30 Stunden, wie vorhin bei einer Routine-Prüfung bemerkte. Auch das gestrige Full-Backup der VM - ebenfalls von pve-3 nach pve-4 - schlug fehl. Heute morgen hingegen , also danach, liefen die Full-Backups der Container erfolgreich.
Der betroffene Node beherbergt also nur die Replikationen und Backups, weshalb ich ihn einfach mal rebootet habe - per ssh, weil die GUI keinen Zugriff auf den node erlaubte (401).
Daraufhin war die Replikation wenigstens gestoppt (wäre das auch anders gegangen, pvesr delete half nicht?).
Auf pve-4 konnte ich aber immer noch nicht via GUI zugreifen, weder direkt noch über die anderen nodes. SSH bzw die Webshell der anderen Nodes gingen aber schon.
Das hat sich gerade eben, während ich das hier schreibe auf wundersame Weise von selbst wieder erholt! Aber ein neu angelegter Replication-Job schlagt sofort fehl:
2021-02-07 18:14:07 650-0: end replication job with error: command 'set -o pipefail && pvesm export main:vm-650-disk-0 zfs - -with-snapshots 1 -snapshot __replicate_650-0_1612718041__ | /usr/bin/ssh -e none -o 'BatchMode=yes' -o 'HostKeyAlias=pve-4' root@10.0.0.34 -- pvesm import main:vm-650-disk-0 zfs - -with-snapshots 1 -allow-rename 0' failed: exit code 255
Ein weiteres Full-Backup will ich jetzt gar nicht ausprobieren, das würde so oder so jetzt zu lange brauchen.
Stoße ich aber eine Replikation der Container an, läuft diese in zwei Minuten durch.
Bleibt eine VM, die weder Replizieren, noch Backuppen will und ein 401 der sich eine halbe Stunde nach dem Reboot von selbst heilt.
Hat jemand eine Idee, wie und wo ich nach dem/den Fehler/n suchen soll? Die obige Fehlermeldung sagt mir nix.
Danke
Bernhard
Last edited: