Probleme mit Proxmox 4.2-17 und Multipath

Diakonie_AT · Aug 30, 2016

Liebes Forum!

Wir haben immer wieder Probleme mit unseren PVE's und Multipath. Wenn wir eine PVE neu starten, läuft zunächst kein Multipath.

$ ssh root@xxxxx

$ qm list

Code:

    VMID NAME                 STATUS     MEM(MB)    BOOTDISK(GB) PID     
         10110 xenokrates           stopped    4096              64.00 0       
         32100 Win7Test             stopped    1024              32.00 0       
         32101 Win7Test101          stopped    1024              32.00 0       
         32102 Win7Test102          stopped    1024              32.00 0       
         32103 Win7Test103          stopped    1024              32.00 0       
         32106 Win7Test6            stopped    2048              32.00 0

$ multipath -ll (FAILED mit return code 1)
Jul 12 20:41:05 | error parsing config file
$ multipath -v3 (FAILED mit return code 1)
Jul 12 20:41:07 | error parsing config file

$ qm start 10110

Code:

Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdc not /dev/sdb
  Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdd not /dev/sdc
  Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdf not /dev/sde
  Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdg not /dev/sdf
  Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdc not /dev/sdb
  Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdd not /dev/sdc
  Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdf not /dev/sde
  Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdg not /dev/sdf
Running as unit 10110.scope.

$ qm shutdown 10110
$ for i in $(qm list | awk '{print $1}'); do echo "shutdown VM $i"; qm shutdown $i; done
$ for i in $(qm list | awk '{print $1}'); do echo "disable HA for VM $i"; ha-manager disable $i; done
$ b /etc/multipath.conf
$ cp /etc/multipath.conf{.puppet,}
$ systemctl restart multipath-tools.service

$ multipath -ll

Code:

 roadrunner (36000402003d854e77b58288400000000) dm-7 NEXSAN,NXS-B01-000
size=4.9T features='1 queue_if_no_path' hwhandler='0' wp=rw
`-+- policy='round-robin 0' prio=1 status=active
  |- 7:0:0:0 sdb 8:16 active ready running
  |- 8:0:0:0 sdc 8:32 active ready running
  `- 9:0:0:0 sdd 8:48 active ready running
coyote (36000402003d854e77b6a6bce00000000) dm-8 NEXSAN,NXS-B01-000
size=14T features='1 queue_if_no_path' hwhandler='0' wp=rw
`-+- policy='round-robin 0' prio=1 status=active
  |- 7:0:0:1 sde 8:64 active ready running
  |- 8:0:0:1 sdf 8:80 active ready running
  `- 9:0:0:1 sdg 8:96 active ready running

$ qm start 10110
Code:
```
Running as unit 10110.scope.
```

Die Festplatten der VMs liegen auf einer Nexsan.

Weiters kommt es auch immer wieder dazu, dass eine VM read-only gemountet wird (ext4 FS mit Option errors=remount-ro), es also zu FS-Errors kommt.

Alles, was wir bisher dazu unternommen haben (https://pve.proxmox.com/wiki/ISCSI_Multipath einarbeiten), hat keine Veränderung gebracht. Habt ihr irgendwelche Ideen?

LG
Zelko
--
IT Systembetreuung
Diakonie Flüchtlingsdienst gem. GmbH

LnxBil · Aug 30, 2016

Wenn der Multipath auf iSCSI liegt wären die eingestellen Parameter interessant. Ich persönlich habe keine guten Erfahrungen mit iSCSI im allgemeinen (und im speziellen mit Multipath) und verwende daher intern (und zu 95% auch extern) nur FC-basiertes SAN, u.A. kein Proxmox auf iSCSI.

Gibt es spezielle Meldungen in dmesg zu dem Thema? Habt ihr Jumbo-Frames im Einsatz?

Warum ist die multipath-Konfiguration laut multipath -ll nicht syntax-konform? IMHO sollte man die multipath.conf doch nur bei Änderungen an den LUNs verwenden und ich hoffe, ihr baut die da nicht dynamisch um oder so, aber bei den großen Volumes scheint das ja nicht der Fall zu sein. Liegt euer rootfs auch auf iSCSI oder habt ihr da lokale Platten?

Lutz Willek · Sep 3, 2016

Diakonie_AT said:
Liebes Forum!

Wir haben immer wieder Probleme mit unseren PVE's und Multipath. Wenn wir eine PVE neu starten, läuft zunächst kein Multipath.

... Habt ihr irgendwelche Ideen?

LG
Zelko
--
IT Systembetreuung
Diakonie Flüchtlingsdienst gem. GmbH

Hallo Zelko,

Da kann Dir sicher geholfen werden, aber zuerst bitte ein wenig mehr Informationen bitte.
Bitte lass uns die relevanten Dinge zuerst per Hand durchgehen, dann erst später mit puppet.

Code:

$ multipath -v3 (FAILED mit return code 1)
Jul 12 20:41:07 | error parsing config file

^^ Bitte poste die komplette Datei /etc/multipath.conf, und zwar zu dem Zeitpunkt zu dem der Fehler auch auftritt. Bitte poste auch die (lange) Ausgabe von "multipath -ll -v3". Du hast da wohl zum Zeitpunkt des Starts einer VM einen Fehler in Deiner Konfigurationsdatei /etc/multipath.conf.

Code:

$ qm start 10110
Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdc not /dev/sdb
...

Na da findet LVM halt schlicht das multipath-Gerät nicht, bedient sich deshalb direkt an /dev/sdc bis sdg und mault deshalb (zu Recht) rum.
^^ Vermutung: Deine VM 10110 liegt auf einem LVM, welches wohl über multipath auf ein iscsi-device zugreift.

Bitte poste (nachdem alle privaten infos raus sind) bitte die Dateien /etc/pve/qemu-server/10110.conf, die /etc/pve/storage.conf.

Weiters kommt es auch immer wieder dazu, dass eine VM read-only gemountet wird (ext4 FS mit Option errors=remount-ro), es also zu FS-Errors kommt.

Alles, was wir bisher dazu unternommen haben (https://pve.proxmox.com/wiki/ISCSI_Multipath einarbeiten), hat keine Veränderung gebracht.

Bitte kannst Du das iscsi-Setup genau beschreiben, also wie die netzwerkseitige Verkabelung, wie viele Switches, ob und wenn ja welches bonding (trunking) benutzt wird, welche mtu usw. Alternativ/ergänzend bitte einfach die Datei /etc/network/interfaces sowie (falls verändert) /etc/iscsi/iscsid.conf und /etc/iscsi/nodes/<TARGET>/<PORTAL>/default.

Und bitte erkläre doch mal die Schritte 8 und 9 Deines Postings genauer. Ist die multipath Konfiguration zwischen 7 und 8 geändert?

Gruß Lutz

coffeelover · Oct 4, 2016

Hi,

nur mal ein Schuß ins Blaue, da ich ein ähnliches Problem hatte:
Der Abschnitt blacklist sollte so aussehen:

blacklist {

wwid .*

}

Es ist wichtig, dass ein Punkt vor dem Sternchen steht. Früher stand in den Howtos immer "wwid *" (ohne Punkt) und funktionierte. Der Parser wurde aber offenbar geändert, jedenfalls hatte ich heute nach dem Upgrade von 3.4 auf 4.3 das gleiche Problem.

Diakonie_AT · Oct 17, 2016

Liebe Leute!

Vielen Dank schon mal für die Anregungen. Urlaubsbedingt und aufgrund anderer akuter Probleme konnte ich hier noch nicht antworten. Anbei kommt unser Setup.

FC ist für uns keine Option. Aber danke für den Hinweis

Die Konfigurationen sind alle im ZIP.

Die Proxmox Server hängen alle an zwei Cisco SG500X, doppelt angebunden, jede Netzwerkkarte an einem Switch, zusammengefasst zu einem LAG. Eigentlich sind praktisch alle auf GbE, bis auf einen Server, der hat schon 10GbE Karten drinnen und hängt (wie auch das Nexsan Storage) auf den 10G Ports. Jumbo-Frames sind (noch) nicht aufgedreht, nirgendwo.

Alle Bonds sind durchwegs 802.3ad,

Code:

auto bond0
iface bond0 inet manual
        slaves eth0 eth1
        bond_miimon 100
        bond_mode 802.3ad
        bond_xmit_hash_policy layer3+4

iscsid.conf schaut m.E. ziemlich default aus.

Die 3 Targets:
default, ~_20 und ~_30 sind einfach unterschiedlichen Targets.

So, ich denke, damit sollte ich alles beantwortet haben, oder?

LG
Zelko

coffeelover · Oct 17, 2016

Bitte entferne mal die Zeile 3 aus der multipath.conf (getuid_callout "")

Diakonie_AT · Oct 17, 2016

@coffeelover: ist diese Lösung nicht RHEL spezifisch? Wir arbeiten durchwegs mit Debian, auch die Proxmox-"unterlage" ist soweit ich weiß Debian... hat jemand auch schon mit dieser Lösung gute Erfahrungen gemacht? Da unsere produktiven Maschinen da drauf liegen, möchte ich ungern "experimentieren".

LG
Zelko

coffeelover · Oct 17, 2016

Diakonie_AT said:
@coffeelover: ist diese Lösung nicht RHEL spezifisch? Wir arbeiten durchwegs mit Debian, auch die Proxmox-"unterlage" ist soweit ich weiß Debian... hat jemand auch schon mit dieser Lösung gute Erfahrungen gemacht? Da unsere produktiven Maschinen da drauf liegen, möchte ich ungern "experimentieren".

LG
Zelko

Vollkommen richtig, Proxmox basiert auf Debian. Aber es ist laut der Ausgabe

Code:

$ multipath -v3 (FAILED mit return code 1)
Jul 12 20:41:07 | error parsing config file

ja so, dass die Datei /etc/multipath.conf keine korrekte Syntax (mehr) hat. Da gilt es herauszufinden, welcher spezifische Parameter zwischen den Versionen weggefallen ist, oder bei welchem sich die Syntax geändert hat.

Ein blacklist * war ja zumindest nicht drin, dass kann also ausgeschlossen werden.

Diakonie_AT · Nov 8, 2016

Ok, dann werd ich das mal so eintragen und austesten.... Einen Server haben wir im HA-Cluster, der praktisch nix mehr macht... Apropos: welche Möglichkeiten habe ich denn, um zu testen, ob Multipath gut und wie gewünscht läuft?

LG
Zelko

LnxBil · Nov 8, 2016

Diakonie_AT said:
Apropos: welche Möglichkeiten habe ich denn, um zu testen, ob Multipath gut und wie gewünscht läuft?

Eigentlich nur multipath -ll kontrollieren. Dann kannste mal ein paar Kabel ziehen (angenommen 4-Weg-System, sonst nur eines ziehen) und die Ausgabe anschauen. Gut ist für die kontinuierliche Überwachung auch das Nagios-Plugin zu dem Thema.

Search

Search

Probleme mit Proxmox 4.2-17 und Multipath

Diakonie_AT

Member

LnxBil

Distinguished Member

Lutz Willek

New Member

coffeelover

Renowned Member

Diakonie_AT

Member

Attachments

coffeelover

Renowned Member

Diakonie_AT

Member

coffeelover

Renowned Member

Diakonie_AT

Member

LnxBil

Distinguished Member