Hi,
dafür habe ich 4 Tage benötigt und verschiedene Testszenarien, bin mir mit dem Ergebnis aber nun sehr sicher. Sobald ein Node damit beginnt, Linux Container und VMs auf einen anderen Node zu replizieren, zerstört er die Grub Config des anderen Nodes, so dass dieser beim nächsten Reboot im 'grub rescue' mit der Fehlermeldung 'unknown filesystem' hängen bleibt. Die Daten selbst sind noch erreichbar, per Live-CD und 'zpool import'.
Umgebung:
Am zweiten Node mit RAIDZ-1 habe ich nichts verändert. Der läuft durch (toitoitoi) und ist mit den Paketen auf dem aktuellen Stand. Er zeigt ebenfalls bei 'grub-probe /' den Fehler 'unknown filesystem' an. D.h. sobald ich den booten werde, wird der Host hängen bleiben. Ursprünglich haben beide Nodes jeweils ihre LXCs und VMs auf den jeweils anderen Node repliziert.
Beim ersten Node habe ich versucht, die Grub Config zu retten. Reinstall Pakete, danach Pool Import unter Live-CD und Chroot und etc. Hat aber leider nicht funktioniert.
Das alles ist schon ziemlich merkwürdig, aber da hier zwei Nodes betroffen sind und einer davon mehrfach neu aufgesetzt wurde, ist meiner Meinung nach was bzgl. der Replikation in den Proxmox Paketen kaputt.
Ich hoffe gerade auf aktuellere Pakete.
Eventuell hat jemand ein ähnliches Problem?
Danke euch und Gruß
Olaf
dafür habe ich 4 Tage benötigt und verschiedene Testszenarien, bin mir mit dem Ergebnis aber nun sehr sicher. Sobald ein Node damit beginnt, Linux Container und VMs auf einen anderen Node zu replizieren, zerstört er die Grub Config des anderen Nodes, so dass dieser beim nächsten Reboot im 'grub rescue' mit der Fehlermeldung 'unknown filesystem' hängen bleibt. Die Daten selbst sind noch erreichbar, per Live-CD und 'zpool import'.
Umgebung:
- 3 Node Cluster
- 2 Nodes mit RAIDZ-1 und ein Node mit Ext4
- repliziert (HA) wird natürlich zwischen den beiden Nodes mit RAIDZ-1
- pve-manager/5.3-11/d4907f84 (running kernel: 4.15.18-10-pve)
- Node aus dem Cluster genommen
- Node komplett neu aufgesetzt, Updates eingespielt und wieder in den Cluster genommen
- Node mehrfach rebootet
- 'grub-probe /' zeigt 'zfs' an, also alles gut
- Nun startet Replikation in Richtung des neuen Nodes und 'grub-probe /' zeigt 'unknown filesystem', d.h. der neue Node wird nicht mehr booten
- RAIDZ-1 und ZFS RAID-1 auf dem neuen Node
- zuerst alles aktuell, bei späteren Installationen dann mit Paketen (von ISO 5.2.1) auf 'hold', ich hatte erst zfs-initramfs, dann Kernel und dann Grub in Verdacht
grub-common hold
grub-efi-amd64-bin hold
grub-efi-ia32-bin hold
grub-pc hold
grub-pc-bin hold
grub2-common hold
libzfs2linux hold
pve-firmware hold
pve-kernel-4.15 hold
pve-kernel-4.15.18-10-pve hold
zfs-initramfs hold
zfsutils-linux hold
- 'zpool scrub rpool' ist mehrfach gelaufen
- mit SSDs im RAIDZ-1 und ZFS RAID-1 und dann noch einmal alles mit HDDs
Am zweiten Node mit RAIDZ-1 habe ich nichts verändert. Der läuft durch (toitoitoi) und ist mit den Paketen auf dem aktuellen Stand. Er zeigt ebenfalls bei 'grub-probe /' den Fehler 'unknown filesystem' an. D.h. sobald ich den booten werde, wird der Host hängen bleiben. Ursprünglich haben beide Nodes jeweils ihre LXCs und VMs auf den jeweils anderen Node repliziert.
Beim ersten Node habe ich versucht, die Grub Config zu retten. Reinstall Pakete, danach Pool Import unter Live-CD und Chroot und etc. Hat aber leider nicht funktioniert.
Das alles ist schon ziemlich merkwürdig, aber da hier zwei Nodes betroffen sind und einer davon mehrfach neu aufgesetzt wurde, ist meiner Meinung nach was bzgl. der Replikation in den Proxmox Paketen kaputt.
Ich hoffe gerade auf aktuellere Pakete.
Eventuell hat jemand ein ähnliches Problem?
Danke euch und Gruß
Olaf
Attachments
Last edited: