CT im HA-Modus mirgiren / stopen

jms1000 · Sep 25, 2017

Hallo,

ich habe einen Proxmox-Cluster mit 3 Nodes (aktuelle 5'er Version). Die CT laufen im HA-Modus über alle 3 Nodes.

Wenn ich jetzt einen laufenden CT auf ein einen anderen Node migrien will, bekomme ich nur eine Meldung im Task-Log "OK". Mehr passiert nicht.

Wenn ich den CT aus dem HA Modus raus werfe, kann ich ihn migrien. Muss das so sein?

LG.Jörg

Alwin · Sep 25, 2017

Wenn der CT oder die VM unter HA steht, dann gibt es zwei Task Einträge, es sollte kurz nach dem HA Eintrag, der Eintrag für die Migration auftauchen.

jms1000 · Sep 25, 2017

Genau das ist ja mein Problem, es kommt nur die HA Meldung und weiter passiert nichts. Das "CT xxx Migration" kommt eben nicht.

Alwin · Sep 26, 2017

Welche PVE Version hast Du im Einsatz 'pveversion -v'? Ist etwas im Syslog und/oder Journal zu finden?

jms1000 · Sep 26, 2017

Im Syslog gibt es nur etwas auf dem prx4 hier:

(CT läuft auf prx4 und soll auf prx3)

Sep 26 08:38:21 prx4.csc.de pvedaemon[8578]: <root@pam> starting task UPID

rx4:000071F8:05F3043D:59C9F5DD:hamigrate:20103:root@pam:
Sep 26 08:38:22 prx4.csc.de pvedaemon[8578]: <root@pam> end task UPID

rx4:000071F8:05F3043D:59C9F5DD:hamigrate:20103:root@pam: OK
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: got crm command: migrate ct:20103 prx3
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: migrate service 'ct:20103' to node 'prx3'
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: service 'ct:20103': state changed from 'started' to 'migrate' (node = prx4, target = prx3)

pveversion -v
proxmox-ve: 5.0-21 (running kernel: 4.10.17-3-pve)
pve-manager: 5.0-32 (running version: 5.0-32/2560e073)
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.10.17-3-pve: 4.10.17-21
libpve-http-server-perl: 2.0-6
lvm2: 2.02.168-pve3
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-12
qemu-server: 5.0-15
pve-firmware: 2.0-2
libpve-common-perl: 5.0-18
libpve-guest-common-perl: 2.0-11
libpve-access-control: 5.0-6
libpve-storage-perl: 5.0-15
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-2
pve-docs: 5.0-9
pve-qemu-kvm: 2.9.0-5
pve-container: 2.0-15
pve-firewall: 3.0-3
pve-ha-manager: 2.0-2
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.0.8-3
lxcfs: 2.0.7-pve4
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.6.5.11-pve17~bpo90

Alwin · Sep 26, 2017

jms1000 said:
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: migrate service 'ct:20103' to node 'prx3'
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: service 'ct:20103': state changed from 'started' to 'migrate' (node = prx4, target = prx3)

Danach erscheinen keine weiteren Meldungen?

Auf welchem Storage liegt der Container? Geht eine CT migration mit CT ohne HA (selber Storage)?

jms1000 · Sep 26, 2017

Keine weiteren Meldungen. Still ruht der See

Die CT liegen auf einem NFS, auf das alle Nodes zugreifen können. Migration ohne HA klappt wunderbar.

Eben festgestellt, betrifft nicht nur CT, auch VM.

Alwin · Sep 26, 2017

Wie schaut deine HA Konfiguration aus ? 'ha-manager groupconfig', 'ha-manager config' & 'ha-manager status'?

jms1000 · Sep 26, 2017

ich habe (musste) die nodes jetzt neu starten. nun tut's wohl wieder alles. mmmh.

aktuell sehen 'ha-manager groupconfig', 'ha-manager config' & 'ha-manager status' auf allen 4 nodes gleich aus.
- status steht started pro ct/vm
- in der config steht startet pro ct/vm
- groupconfig: group: HA_normal
nodes prx2,prx4,prx3,prx1
nofailback 0
restricted 0

ich checke die kommandos aber mal wenn es wieder klemmt. vermutlich klemmt da einer (mehere?) nodes irgendwie/-wo im sync.

jms1000 · Sep 29, 2017

so, ich habe diesen Zustand wieder gefunden. Und dabei zunächst feststellen müssen, dass er nicht nur bei der Migration sondern auch beim stoppen (herunterfahren) auftritt. voll uncool

- im Webinterface steht "HA 20006 - Stopp" OK, und weiter passiert nicht.

- im Syslog finde ich:
Sep 29 08:46:01 prx2 pvedaemon[19031]: <root@pam> starting task UPIDrx2:0000581B:01803A17:59CDEC29:hastop:20006:root@pam:
Sep 29 08:46:02 prx2 pvedaemon[19031]: <root@pam> end task UPIDrx2:0000581B:01803A17:59CDEC29:hastop:20006:root@pam: OK

- ha-manager status zeigt auf allen nodes gleiche an (sieht ok aus) und für die betreffende ct:
service ct:20006 (prx2, request_stop)

- ha-manager zeigt für die ct an:
ct:20006
group HA_normal
state stopped

- pvecm status / nodes sehen auch gut aus

-im syslog der anderen proxmoxnodes scheint nur einer den statuswechsel mitbekommen zu haben (obwohl der ha-manger etwas anderes angibt und der statuswechsel auch in den verschiedenen webinterfaces zu sehen ist):
prx3: pve-ha-crm[2164]: service 'ct:20006': state changed from 'started' to 'request_stop'

und nun? muss ja irgendwo dran liegen das die Funktionen nach 1-2 Tagen nicht mehr lauffähig ist.

Alwin · Sep 29, 2017

Wie sieht die 'storage.cfg' aus? Gibt es unabhängig vom HA, noch andere Fehler/Warnungen im Syslog?

jms1000 · Sep 29, 2017

im logfile gibt es nix was interesant aus schaut. netzwerk/raid laufen auch stabil durch (laut monitoring).

die ct/vm laufen alle auf dem /mnt/data/raid, was als nfs3 via 10gb gemoutet ist, der erst ist backup ...

cat /etc/pve/storage.cfg
dir: data-back
path /mnt/data-back
content backup
maxfiles 7
nodes prx4,prx1,prx2
shared 0

dir: dataraid
path /mnt/data-raid
content backup,rootdir,images
maxfiles 7
shared 1

zfspool: zfs-local
pool rpool/data
content images,rootdir
nodes prx2,prx4,prx1,prx3
sparse 0

dir: local
disable
path /var/lib/vz
content iso,images,vztmpl,rootdir
maxfiles 0
shared 0

Alwin · Sep 29, 2017

Und wie schaut die Konfig eines CT/VM aus (qm/pct config <vmid>)?

jms1000 · Sep 29, 2017

nichts besonders, sind alle ähnlich die setup's der ct.

arch: amd64
cpulimit: 0
cpuunits: 2048
hostname: xx
mp0: /mnt/data-srv/20101,mp=/mnt/data-server,shared=1
nameserver: xxx xxxx
net0: name=eth0,bridge=vmbr0,gw=xxx,hwaddr=D6:F2:6B:E4:3E:B1,ip=xxx/24,type=veth
onboot: 1
ostype: debian
rootfs: dataraid:20006/vm-20006-disk-1.raw,size=200G
searchdomain: xxx.de
swap: 8192

jms1000 · Sep 29, 2017

so etwas habe ich nach dem booten eins proxmox-nodes gelegentlich im syslog (ist aber nur das backup-device):

rrdcached[2119]: queue_thread_main: rrd_update_r (/var/lib/rrdcached/db/pve2-storage/prx2/data-back) failed with status -1. (/var/lib/rrdcached/db/pve2-storage/prx2/data-back: illegal attempt to update using time 1506674750 when last update time is 1506674970 (minimum one second step))

Alwin · Sep 29, 2017

jms1000 said:
mp0: /mnt/data-srv/20101,mp=/mnt/data-server,shared=1

Der mp0 Pfad ist kein Storage in der storage.cfg, bei lokalen Mounts funktioniert HA nicht, auch wenn der eingebundene Share auf allen Servern zur Verfügung steht.

Man kann den mp0 mit Größe '0' anlegen, damit wird kein raw image erstellt, dann muss aber der Pfad wie beim raw mount angepasst (../image/vmid/) werden. Dafür braucht es aber auch ein Storage in der storage.cfg, damit HA damit umgehen kann. Oder man bindet im CT den Share ein.

jms1000 · Sep 29, 2017

Ok, das macht ja dann auch Sinn (Fehlererklärung).

dDer "mp0" ist ein nur ein NFS mount. Ich habe dort die Logfiles und die lokalen Backups der Server liegen, damit diese nicht im Image sind.

Gibt es eine bessere Lösung diesen NFS-Mount in die CT/VM's zu bekommen als über den MP? Innerhalb der CT/VM geht nicht so recht (uneinheitlich, kein zugriff, kein NFS, ***).

Das mit dem MP0 mit Größe 0 habe ich nicht verstanden. Und RAW-Images werden im mp0 nicht erstellt, da liegen die Files der verschiedenen ct/vm einfach so im filesystem (als direktory eingebunden):

Filesystem Size Used Avail Use% Mounted on
/dev/loop4 197G 106G 83G 57% /
192.168.102.2:/volume1/Backup-Server/20101 9.1T 6.8T 2.3T 75% /mnt/data-server

Alwin · Sep 29, 2017

jms1000 said:
Das mit dem MP0 mit Größe 0 habe ich nicht verstanden. Und RAW-Images werden im mp0 nicht erstellt, da liegen die Files der verschiedenen ct/vm einfach so im filesystem (als direktory eingebunden):

Zum einen braucht es einen Storage Eintrag in der 'storage.cfg' oder über die GUI. Das kommt darauf an, wie du den MP hinzugefügt hast. Ich denke, wenn du den Pfad in der <vmid>.conf anpasst, dann sollte es auch klappen.

Alwin · Sep 29, 2017

Ich bin nochmal durch die Doku (man pct.conf) gegangen und hab dabei festgestellt, das es für MPs doch auch mit lokalen mounts geht. Dann liegt die Vermutung nahe, dass der LRM vielleicht nicht gestartet ist, 'systemctl status pve-ha-lrm.service'.

jms1000 · Sep 29, 2017

meiner Ansicht nach klappte es auch mit der Migration und dem Stop, jedoch nur nach dem Neustart des Proxmox-Host. Nach 1-2 Tagen nicht mehr. Muss irgendwas am NFS, dem Sync oder dem Netzwerk sein.

Der ha-lrm und alles anderen Services laufen ohne Fehler:

systemctl status pve-ha-lrm.service
● pve-ha-lrm.service - PVE Local HA Ressource Manager Daemon
Loaded: loaded (/lib/systemd/system/pve-ha-lrm.service; enabled; vendor preset: enabled)
Active: active (running) since Fri 2017-09-29 13:25:32 CEST; 1h 21min ago
Process: 2448 ExecStart=/usr/sbin/pve-ha-lrm start (code=exited, status=0/SUCCESS)
Main PID: 2451 (pve-ha-lrm)
Tasks: 1 (limit: 4915)
CGroup: /system.slice/pve-ha-lrm.service
└─2451 pve-ha-lrm

CT im HA-Modus mirgiren / stopen

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Proxmox Retired Staff

Well-Known Member