CT im HA-Modus mirgiren / stopen

jms1000

Well-Known Member
Oct 25, 2016
150
4
58
58
Germany, Schkeuditz
www.sv-forensik.de
Hallo,

ich habe einen Proxmox-Cluster mit 3 Nodes (aktuelle 5'er Version). Die CT laufen im HA-Modus über alle 3 Nodes.

Wenn ich jetzt einen laufenden CT auf ein einen anderen Node migrien will, bekomme ich nur eine Meldung im Task-Log "OK". Mehr passiert nicht.

Wenn ich den CT aus dem HA Modus raus werfe, kann ich ihn migrien. Muss das so sein?

LG.Jörg
 
Wenn der CT oder die VM unter HA steht, dann gibt es zwei Task Einträge, es sollte kurz nach dem HA Eintrag, der Eintrag für die Migration auftauchen.
 
Welche PVE Version hast Du im Einsatz 'pveversion -v'? Ist etwas im Syslog und/oder Journal zu finden?
 
Im Syslog gibt es nur etwas auf dem prx4 hier:

(CT läuft auf prx4 und soll auf prx3)

Sep 26 08:38:21 prx4.csc.de pvedaemon[8578]: <root@pam> starting task UPID:prx4:000071F8:05F3043D:59C9F5DD:hamigrate:20103:root@pam:
Sep 26 08:38:22 prx4.csc.de pvedaemon[8578]: <root@pam> end task UPID:prx4:000071F8:05F3043D:59C9F5DD:hamigrate:20103:root@pam: OK
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: got crm command: migrate ct:20103 prx3
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: migrate service 'ct:20103' to node 'prx3'
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: service 'ct:20103': state changed from 'started' to 'migrate' (node = prx4, target = prx3)

pveversion -v
proxmox-ve: 5.0-21 (running kernel: 4.10.17-3-pve)
pve-manager: 5.0-32 (running version: 5.0-32/2560e073)
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.10.17-3-pve: 4.10.17-21
libpve-http-server-perl: 2.0-6
lvm2: 2.02.168-pve3
corosync: 2.4.2-pve3
libqb0: 1.0.1-1
pve-cluster: 5.0-12
qemu-server: 5.0-15
pve-firmware: 2.0-2
libpve-common-perl: 5.0-18
libpve-guest-common-perl: 2.0-11
libpve-access-control: 5.0-6
libpve-storage-perl: 5.0-15
pve-libspice-server1: 0.12.8-3
vncterm: 1.5-2
pve-docs: 5.0-9
pve-qemu-kvm: 2.9.0-5
pve-container: 2.0-15
pve-firewall: 3.0-3
pve-ha-manager: 2.0-2
ksm-control-daemon: 1.2-2
glusterfs-client: 3.8.8-1
lxc-pve: 2.0.8-3
lxcfs: 2.0.7-pve4
criu: 2.11.1-1~bpo90
novnc-pve: 0.6-4
smartmontools: 6.5+svn4324-1
zfsutils-linux: 0.6.5.11-pve17~bpo90
 
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: migrate service 'ct:20103' to node 'prx3'
Sep 26 08:38:23 prx4.csc.de pve-ha-crm[2482]: service 'ct:20103': state changed from 'started' to 'migrate' (node = prx4, target = prx3)
Danach erscheinen keine weiteren Meldungen?

Auf welchem Storage liegt der Container? Geht eine CT migration mit CT ohne HA (selber Storage)?
 
Wie schaut deine HA Konfiguration aus ? 'ha-manager groupconfig', 'ha-manager config' & 'ha-manager status'?
 
ich habe (musste) die nodes jetzt neu starten. nun tut's wohl wieder alles. mmmh.

aktuell sehen 'ha-manager groupconfig', 'ha-manager config' & 'ha-manager status' auf allen 4 nodes gleich aus.
- status steht started pro ct/vm
- in der config steht startet pro ct/vm
- groupconfig: group: HA_normal
nodes prx2,prx4,prx3,prx1
nofailback 0
restricted 0

ich checke die kommandos aber mal wenn es wieder klemmt. vermutlich klemmt da einer (mehere?) nodes irgendwie/-wo im sync.
 
so, ich habe diesen Zustand wieder gefunden. Und dabei zunächst feststellen müssen, dass er nicht nur bei der Migration sondern auch beim stoppen (herunterfahren) auftritt. voll uncool :(

- im Webinterface steht "HA 20006 - Stopp" OK, und weiter passiert nicht.

- im Syslog finde ich:
Sep 29 08:46:01 prx2 pvedaemon[19031]: <root@pam> starting task UPID:prx2:0000581B:01803A17:59CDEC29:hastop:20006:root@pam:
Sep 29 08:46:02 prx2 pvedaemon[19031]: <root@pam> end task UPID:prx2:0000581B:01803A17:59CDEC29:hastop:20006:root@pam: OK


- ha-manager status zeigt auf allen nodes gleiche an (sieht ok aus) und für die betreffende ct:
service ct:20006 (prx2, request_stop)

- ha-manager zeigt für die ct an:
ct:20006
group HA_normal
state stopped


- pvecm status / nodes sehen auch gut aus

-im syslog der anderen proxmoxnodes scheint nur einer den statuswechsel mitbekommen zu haben (obwohl der ha-manger etwas anderes angibt und der statuswechsel auch in den verschiedenen webinterfaces zu sehen ist):
prx3: pve-ha-crm[2164]: service 'ct:20006': state changed from 'started' to 'request_stop'

und nun? muss ja irgendwo dran liegen das die Funktionen nach 1-2 Tagen nicht mehr lauffähig ist.
 
Last edited:
Wie sieht die 'storage.cfg' aus? Gibt es unabhängig vom HA, noch andere Fehler/Warnungen im Syslog?
 
im logfile gibt es nix was interesant aus schaut. netzwerk/raid laufen auch stabil durch (laut monitoring).

die ct/vm laufen alle auf dem /mnt/data/raid, was als nfs3 via 10gb gemoutet ist, der erst ist backup ...

cat /etc/pve/storage.cfg
dir: data-back
path /mnt/data-back
content backup
maxfiles 7
nodes prx4,prx1,prx2
shared 0

dir: dataraid
path /mnt/data-raid
content backup,rootdir,images
maxfiles 7
shared 1

zfspool: zfs-local
pool rpool/data
content images,rootdir
nodes prx2,prx4,prx1,prx3
sparse 0

dir: local
disable
path /var/lib/vz
content iso,images,vztmpl,rootdir
maxfiles 0
shared 0
 
Und wie schaut die Konfig eines CT/VM aus (qm/pct config <vmid>)?
 
nichts besonders, sind alle ähnlich die setup's der ct.

arch: amd64
cpulimit: 0
cpuunits: 2048
hostname: xx
mp0: /mnt/data-srv/20101,mp=/mnt/data-server,shared=1
nameserver: xxx xxxx
net0: name=eth0,bridge=vmbr0,gw=xxx,hwaddr=D6:F2:6B:E4:3E:B1,ip=xxx/24,type=veth
onboot: 1
ostype: debian
rootfs: dataraid:20006/vm-20006-disk-1.raw,size=200G
searchdomain: xxx.de
swap: 8192
 
so etwas habe ich nach dem booten eins proxmox-nodes gelegentlich im syslog (ist aber nur das backup-device):

rrdcached[2119]: queue_thread_main: rrd_update_r (/var/lib/rrdcached/db/pve2-storage/prx2/data-back) failed with status -1. (/var/lib/rrdcached/db/pve2-storage/prx2/data-back: illegal attempt to update using time 1506674750 when last update time is 1506674970 (minimum one second step))
 
mp0: /mnt/data-srv/20101,mp=/mnt/data-server,shared=1
Der mp0 Pfad ist kein Storage in der storage.cfg, bei lokalen Mounts funktioniert HA nicht, auch wenn der eingebundene Share auf allen Servern zur Verfügung steht.

Man kann den mp0 mit Größe '0' anlegen, damit wird kein raw image erstellt, dann muss aber der Pfad wie beim raw mount angepasst (../image/vmid/) werden. Dafür braucht es aber auch ein Storage in der storage.cfg, damit HA damit umgehen kann. Oder man bindet im CT den Share ein.
 
Ok, das macht ja dann auch Sinn (Fehlererklärung).

dDer "mp0" ist ein nur ein NFS mount. Ich habe dort die Logfiles und die lokalen Backups der Server liegen, damit diese nicht im Image sind.

Gibt es eine bessere Lösung diesen NFS-Mount in die CT/VM's zu bekommen als über den MP? Innerhalb der CT/VM geht nicht so recht (uneinheitlich, kein zugriff, kein NFS, ***).

Das mit dem MP0 mit Größe 0 habe ich nicht verstanden. Und RAW-Images werden im mp0 nicht erstellt, da liegen die Files der verschiedenen ct/vm einfach so im filesystem (als direktory eingebunden):

Filesystem Size Used Avail Use% Mounted on
/dev/loop4 197G 106G 83G 57% /
192.168.102.2:/volume1/Backup-Server/20101 9.1T 6.8T 2.3T 75% /mnt/data-server
 
Das mit dem MP0 mit Größe 0 habe ich nicht verstanden. Und RAW-Images werden im mp0 nicht erstellt, da liegen die Files der verschiedenen ct/vm einfach so im filesystem (als direktory eingebunden):
Zum einen braucht es einen Storage Eintrag in der 'storage.cfg' oder über die GUI. Das kommt darauf an, wie du den MP hinzugefügt hast. Ich denke, wenn du den Pfad in der <vmid>.conf anpasst, dann sollte es auch klappen. ;)
 
Ich bin nochmal durch die Doku (man pct.conf) gegangen und hab dabei festgestellt, das es für MPs doch auch mit lokalen mounts geht. Dann liegt die Vermutung nahe, dass der LRM vielleicht nicht gestartet ist, 'systemctl status pve-ha-lrm.service'.
 
meiner Ansicht nach klappte es auch mit der Migration und dem Stop, jedoch nur nach dem Neustart des Proxmox-Host. Nach 1-2 Tagen nicht mehr. Muss irgendwas am NFS, dem Sync oder dem Netzwerk sein.

Der ha-lrm und alles anderen Services laufen ohne Fehler:

systemctl status pve-ha-lrm.service
● pve-ha-lrm.service - PVE Local HA Ressource Manager Daemon
Loaded: loaded (/lib/systemd/system/pve-ha-lrm.service; enabled; vendor preset: enabled)
Active: active (running) since Fri 2017-09-29 13:25:32 CEST; 1h 21min ago
Process: 2448 ExecStart=/usr/sbin/pve-ha-lrm start (code=exited, status=0/SUCCESS)
Main PID: 2451 (pve-ha-lrm)
Tasks: 1 (limit: 4915)
CGroup: /system.slice/pve-ha-lrm.service
└─2451 pve-ha-lrm
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!