2 Replikationenen, 1. gelöscht, 2 verschwunden

bforpc

Renowned Member
Nov 26, 2013
151
4
83
Hamburg
Guten Morgen in die Runde,

uns ist heute Morgen ein großes Problem aufgefallen,nachdem wir gestern einen Proxmox ausgemustert haben.
Folgender Status:

* Ein Cluster aus 5 Proxmox Servern.
* P1 repliziert eine VM auf P2 und P3 ein mal in der Nacht
* P2 geht (für immer) offline (gestern Vormittag)
* Replikation auf P1 für P2 wird gelöscht (erst nachdem P2 offline war)
* Am nächsten Tag sagt pvesr auf P1, dass die nächtliche Replikation zu P3 erfolgreich war (!)

Auf P3 ist die besagt VM heute morgen nicht mehr vorhanden.

Das muss wohl ein BUG sein. Unsere 10TB VM muss jetzt komplett neu zu P3 übertragen werden. Sehr ärgerlich.

Bfo
 
Hallo,
könntest Du bitte von beiden Nodes folgendes posten?
Code:
pveversion -v
zpool history | grep vm-<ID>
/var/log/syslog
Bitte <ID> mit der ID von der virtuellen Maschine ersetzen und den Syslog am Besten als Anhang. Das Log von der nächtlichen Replikation P1 -> P3 wäre auch interessant falls es noch vorhanden ist.
 
Hallo,


hier die Daten wie gewünscht. Es handelt sich um die beiden Platen der VM 150.
Das Probel ist heute Morgen um 06:57:18 aufgefallen und danach wurde die Replikation neu angestossen.
Syslog kann ich leider im Moment nicht rausgeben.

pveversion von P1 (der Quelle):


Code:
proxmox-ve: 6.4-1 (running kernel: 5.4.65-1-pve)
pve-manager: 6.4-13 (running version: 6.4-13/9f411e79)
pve-kernel-5.4: 6.4-5
pve-kernel-helper: 6.4-5
pve-kernel-5.3: 6.1-6
pve-kernel-5.4.128-1-pve: 5.4.128-1
pve-kernel-5.4.103-1-pve: 5.4.103-1
pve-kernel-5.4.65-1-pve: 5.4.65-1
pve-kernel-5.3.18-3-pve: 5.3.18-3
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.1.2-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
libjs-extjs: 6.0.1-10
libknet1: 1.20-pve1
libproxmox-acme-perl: 1.1.0
libproxmox-backup-qemu0: 1.1.0-1
libpve-access-control: 6.4-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.4-3
libpve-guest-common-perl: 3.1-5
libpve-http-server-perl: 3.2-3
libpve-storage-perl: 6.4-1
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.6-2
lxcfs: 4.0.6-pve1
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.1.12-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.6-1
pve-cluster: 6.4-1
pve-container: 3.3-6
pve-docs: 6.4-2
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-4
pve-firmware: 3.2-4
pve-ha-manager: 3.1-1
pve-i18n: 2.3-1
pve-qemu-kvm: 5.2.0-6
pve-xtermjs: 4.7.0-3
qemu-server: 6.4-2
smartmontools: 7.2-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 2.0.5-pve1~bpo10+1

pveversion von P3 (einem der Ziele):
Code:
proxmox-ve: 7.0-2 (running kernel: 5.11.22-5-pve)
pve-manager: 7.0-13 (running version: 7.0-13/7aa7e488)
pve-kernel-helper: 7.1-2
pve-kernel-5.11: 7.0-8
pve-kernel-5.11.22-5-pve: 5.11.22-10
ceph-fuse: 14.2.21-1
corosync: 3.1.5-pve1
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown: residual config
ifupdown2: 3.1.0-1+pmx3
libjs-extjs: 7.0.0-1
libknet1: 1.22-pve1
libproxmox-acme-perl: 1.4.0
libproxmox-backup-qemu0: 1.2.0-1
libpve-access-control: 7.0-5
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.0-10
libpve-guest-common-perl: 4.0-2
libpve-http-server-perl: 4.0-3
libpve-storage-perl: 7.0-12
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 4.0.9-4
lxcfs: 4.0.8-pve2
novnc-pve: 1.2.0-3
proxmox-backup-client: 2.0.11-1
proxmox-backup-file-restore: 2.0.11-1
proxmox-mini-journalreader: 1.2-1
proxmox-widget-toolkit: 3.3-6
pve-cluster: 7.0-3
pve-container: 4.1-1
pve-docs: 7.0-5
pve-edk2-firmware: 3.20210831-1
pve-firewall: 4.2-4
pve-firmware: 3.3-2
pve-ha-manager: 3.3-1
pve-i18n: 2.5-1
pve-qemu-kvm: 6.0.0-4
pve-xtermjs: 4.12.0-1
qemu-server: 7.0-16
smartmontools: 7.2-1
spiceterm: 3.2-2
vncterm: 1.7-1
zfsutils-linux: 2.0.5-pve1

Das zpool History auf dem P1:
Code:
2021-11-24.06:44:06 zfs snapshot store/proxmox/vm/vm-150-disk-0@autosnap_2021-11-24_06:44:06_daily
2021-11-24.06:44:11 zfs snapshot store/proxmox/vm/vm-150-disk-1@autosnap_2021-11-24_06:44:06_daily
2021-11-24.07:44:11 zfs destroy store/proxmox/vm/vm-150-disk-0@autosnap_2021-11-21_07:44:05_daily
2021-11-24.15:37:29 zfs send -Rpv -- store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637659681__
2021-11-24.15:44:11 zfs destroy store/proxmox/vm/vm-150-disk-1@autosnap_2021-11-21_07:44:05_daily
2021-11-25.00:21:09 zfs snapshot store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796066__
2021-11-25.00:21:12 zfs snapshot store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796066__
2021-11-25.00:23:30 zfs send -Rpv -I __replicate_150-2_1637659681__ -- store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796066__
2021-11-25.00:31:16 zfs send -Rpv -I __replicate_150-2_1637659681__ -- store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796066__
2021-11-25.00:31:17 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637659681__
2021-11-25.00:31:21 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637659681__
2021-11-25.00:34:08 zfs snapshot store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796845__
2021-11-25.00:34:11 zfs snapshot store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796845__
2021-11-25.00:34:14 zfs send -Rpv -I __replicate_150-2_1637796066__ -- store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796845__
2021-11-25.00:34:16 zfs send -Rpv -I __replicate_150-2_1637796066__ -- store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796845__
2021-11-25.00:34:16 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796066__
2021-11-25.00:34:21 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796066__
2021-11-25.06:44:05 zfs snapshot store/proxmox/vm/vm-150-disk-1@autosnap_2021-11-25_06:44:05_daily
2021-11-25.06:44:10 zfs snapshot store/proxmox/vm/vm-150-disk-0@autosnap_2021-11-25_06:44:05_daily
2021-11-25.06:57:18 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-1_1637651101__
2021-11-25.06:57:23 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-1_1637651101__
2021-11-25.07:09:30 zfs snapshot store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637820565__
2021-11-25.07:09:33 zfs snapshot store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637820565__
2021-11-25.07:44:15 zfs destroy store/proxmox/vm/vm-150-disk-1@autosnap_2021-11-22_06:44:04_daily
2021-11-25.08:59:09 zfs send -Rpv -- store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637820565__
2021-11-25.09:44:10 zfs destroy store/proxmox/vm/vm-150-disk-0@autosnap_2021-11-22_06:44:04_daily

Das zpool History auf dem P3:
Code:
2021-11-23.11:39:25 zfs recv -F -- store/proxmox/vm/vm-150-disk-0
2021-11-24.15:37:29 zfs recv -F -- store/proxmox/vm/vm-150-disk-1
2021-11-25.00:23:31 zfs recv -F -- store/proxmox/vm/vm-150-disk-0
2021-11-25.00:31:19 zfs recv -F -- store/proxmox/vm/vm-150-disk-1
2021-11-25.00:31:19 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637659681__
2021-11-25.00:31:24 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637659681__
2021-11-25.00:34:15 zfs recv -F -- store/proxmox/vm/vm-150-disk-0
2021-11-25.00:34:17 zfs recv -F -- store/proxmox/vm/vm-150-disk-1
2021-11-25.00:34:17 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796066__
2021-11-25.00:34:22 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796066__
2021-11-25.06:57:09 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-1_1637651101__
2021-11-25.06:57:10 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-1_1637651101__
2021-11-25.06:57:14 zfs destroy -r store/proxmox/vm/vm-150-disk-1
2021-11-25.06:57:23 zfs destroy -r store/proxmox/vm/vm-150-disk-0
2021-11-25.08:59:08 zfs recv -F -- store/proxmox/vm/vm-150-disk-0
 
Auf P3 ist die besagt VM heute morgen nicht mehr vorhanden.
Was genau bedeutet das? Dass die replizierten Volumes gefehlt haben? Wie wurde das festgestellt (über UI/CLI)?

Das Probel ist heute Morgen um 06:57:18 aufgefallen und danach wurde die Replikation neu angestossen.
War der Job selbst noch vorhanden? Oder wurde der Job gelöscht und neu angelegt?

Bei den zpool history-Logs scheint die nächtliche Replikation ja erfolgreich durchgelaufen zu sein. Bitte (auch mit den Syslogs überprüfen), ob kurz bevor die replizierten Volumes gelöscht wurden, etwas Verdächtiges geschehen ist.

Es ist nicht empfohlen Nodes länger als nötig mit gemischten Major-Versionen im selben Cluster zu haben. Sollte jetzt natürlich auch nicht dazu führen, dass von alleine ein repliziertes Volume gelöscht wird.
 
Hallo Fabian,

ich kann bestätigen, dass in der Nacht die Replikation gelaufen ist - am besagten Morgen war die VM auf dem Ziel zwar weg, aber auf der Quelle (P1) sagte pvesr status, dass die Replikation der besagten VM in der Nacht erfolgreich war.

Die besagten Ziel Volumes waren nicht mehr vorhanden (über CLI geprüft). Interessanterweise muss der Löschvorgang erst am Morgen sehr frühen passiert sein. Denn der zpool hatte - als ich ins Büro kam (gegen 0700) nicht den gesamten Platz als frei angezeigt... nach ca. 30min aber schon (== er war also noch am löschen - die besagten Pools waren sehr groß).

Der rep-Job war natürlich noch vorhanden und ich habe ihn dann später auch nur wieder neu manuell angestoßen (was auch klappt, er repliziert immer noch, müsste heute ~ 1500 Uhr fertig werden).

Der neuere Node ist gerade erst angeschafft und installiert worden. Die älteren werden in den nächsten Tagen up'gedatet auf 7.x

Dennoch: sehr seltsames verhalten.
Es ist mir bekannt, dass beim Löschen einer Replikationskonfiguration über dei WebUi auch das Ziel gelöscht wird. Dies war hier aber nicht der Fall.

Bfo
 
Last edited:
Das zpool History auf dem P3:
Code:
2021-11-25.00:31:19 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637659681__
2021-11-25.00:31:24 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637659681__
2021-11-25.00:34:15 zfs recv -F -- store/proxmox/vm/vm-150-disk-0
2021-11-25.00:34:17 zfs recv -F -- store/proxmox/vm/vm-150-disk-1
2021-11-25.00:34:17 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-2_1637796066__
2021-11-25.00:34:22 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-2_1637796066__
2021-11-25.06:57:09 zfs destroy store/proxmox/vm/vm-150-disk-0@__replicate_150-1_1637651101__
2021-11-25.06:57:10 zfs destroy store/proxmox/vm/vm-150-disk-1@__replicate_150-1_1637651101__
2021-11-25.06:57:14 zfs destroy -r store/proxmox/vm/vm-150-disk-1
2021-11-25.06:57:23 zfs destroy -r store/proxmox/vm/vm-150-disk-0
2021-11-25.08:59:08 zfs recv -F -- store/proxmox/vm/vm-150-disk-0
Habe mir nochmal den Log angeschaut und die Replikation die für P3 konfiguriert war, hatte offenbar ID 150-2. Aber beim Löschen wurde für den Job mit ID 150-1 gelöscht. Ich schätze mal das war der Job für P2? Wann genau wurde der Job für P2 gelöscht? Wann genau wurde P2 aus dem Cluster entfernt?
 
Moin,
150-2 ist der besagte Job für P3 - korrekt. 150-1 wurde am Morgen in der Web UI gelöscht (zum löschen markiert). Zu diesem Zeitpunkt war das Replikat für P3 immer noch auf dem Server drauf. Am nächsten Tag war es (ohne weiteres zutun weg). Die Config 150-1 war übrigens imme rnoch in der Webui zum löschen markiert (also noch nicht gelöscht)

Bfo
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!