Probleme mit Proxmox 4.2-17 und Multipath

Aug 24, 2016
4
0
21
54
Liebes Forum!

Wir haben immer wieder Probleme mit unseren PVE's und Multipath. Wenn wir eine PVE neu starten, läuft zunächst kein Multipath.

$ ssh root@xxxxx
  1. $ qm list

    Code:
        VMID NAME                 STATUS     MEM(MB)    BOOTDISK(GB) PID     
             10110 xenokrates           stopped    4096              64.00 0       
             32100 Win7Test             stopped    1024              32.00 0       
             32101 Win7Test101          stopped    1024              32.00 0       
             32102 Win7Test102          stopped    1024              32.00 0       
             32103 Win7Test103          stopped    1024              32.00 0       
             32106 Win7Test6            stopped    2048              32.00 0
  2. $ multipath -ll (FAILED mit return code 1)
    Jul 12 20:41:05 | error parsing config file
  3. $ multipath -v3 (FAILED mit return code 1)
    Jul 12 20:41:07 | error parsing config file
  4. $ qm start 10110
    Code:
    Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdc not /dev/sdb
      Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdd not /dev/sdc
      Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdf not /dev/sde
      Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdg not /dev/sdf
      Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdc not /dev/sdb
      Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdd not /dev/sdc
      Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdf not /dev/sde
      Found duplicate PV k8qlbr8NwqZciVgOEU2NRyKIqeD0FViz: using /dev/sdg not /dev/sdf
    Running as unit 10110.scope.
  5. $ qm shutdown 10110

  6. $ for i in $(qm list | awk '{print $1}'); do echo "shutdown VM $i"; qm shutdown $i; done
  7. $ for i in $(qm list | awk '{print $1}'); do echo "disable HA for VM $i"; ha-manager disable $i; done
  8. $ b /etc/multipath.conf
  9. $ cp /etc/multipath.conf{.puppet,}
  10. $ systemctl restart multipath-tools.service
  11. $ multipath -ll
    Code:
     roadrunner (36000402003d854e77b58288400000000) dm-7 NEXSAN,NXS-B01-000
    size=4.9T features='1 queue_if_no_path' hwhandler='0' wp=rw
    `-+- policy='round-robin 0' prio=1 status=active
      |- 7:0:0:0 sdb 8:16 active ready running
      |- 8:0:0:0 sdc 8:32 active ready running
      `- 9:0:0:0 sdd 8:48 active ready running
    coyote (36000402003d854e77b6a6bce00000000) dm-8 NEXSAN,NXS-B01-000
    size=14T features='1 queue_if_no_path' hwhandler='0' wp=rw
    `-+- policy='round-robin 0' prio=1 status=active
      |- 7:0:0:1 sde 8:64 active ready running
      |- 8:0:0:1 sdf 8:80 active ready running
      `- 9:0:0:1 sdg 8:96 active ready running
  12. $ qm start 10110
    Code:
    Running as unit 10110.scope.

Die Festplatten der VMs liegen auf einer Nexsan.

Weiters kommt es auch immer wieder dazu, dass eine VM read-only gemountet wird (ext4 FS mit Option errors=remount-ro), es also zu FS-Errors kommt.

Alles, was wir bisher dazu unternommen haben (https://pve.proxmox.com/wiki/ISCSI_Multipath einarbeiten), hat keine Veränderung gebracht. Habt ihr irgendwelche Ideen?

LG
Zelko
--
IT Systembetreuung
Diakonie Flüchtlingsdienst gem. GmbH
 
Wenn der Multipath auf iSCSI liegt wären die eingestellen Parameter interessant. Ich persönlich habe keine guten Erfahrungen mit iSCSI im allgemeinen (und im speziellen mit Multipath) und verwende daher intern (und zu 95% auch extern) nur FC-basiertes SAN, u.A. kein Proxmox auf iSCSI.

Gibt es spezielle Meldungen in dmesg zu dem Thema? Habt ihr Jumbo-Frames im Einsatz?

Warum ist die multipath-Konfiguration laut multipath -ll nicht syntax-konform? IMHO sollte man die multipath.conf doch nur bei Änderungen an den LUNs verwenden und ich hoffe, ihr baut die da nicht dynamisch um oder so, aber bei den großen Volumes scheint das ja nicht der Fall zu sein. Liegt euer rootfs auch auf iSCSI oder habt ihr da lokale Platten?
 
Liebes Forum!

Wir haben immer wieder Probleme mit unseren PVE's und Multipath. Wenn wir eine PVE neu starten, läuft zunächst kein Multipath.

... Habt ihr irgendwelche Ideen?

LG
Zelko
--
IT Systembetreuung
Diakonie Flüchtlingsdienst gem. GmbH

Hallo Zelko,

Da kann Dir sicher geholfen werden, aber zuerst bitte ein wenig mehr Informationen bitte.
Bitte lass uns die relevanten Dinge zuerst per Hand durchgehen, dann erst später mit puppet.

Code:
$ multipath -v3 (FAILED mit return code 1)
Jul 12 20:41:07 | error parsing config file

^^ Bitte poste die komplette Datei /etc/multipath.conf, und zwar zu dem Zeitpunkt zu dem der Fehler auch auftritt. Bitte poste auch die (lange) Ausgabe von "multipath -ll -v3". Du hast da wohl zum Zeitpunkt des Starts einer VM einen Fehler in Deiner Konfigurationsdatei /etc/multipath.conf.


Code:
$ qm start 10110
Found duplicate PV ouSh1sGmOSUnRsSOjS6crUQbKMFTq9Yw: using /dev/sdc not /dev/sdb
...

Na da findet LVM halt schlicht das multipath-Gerät nicht, bedient sich deshalb direkt an /dev/sdc bis sdg und mault deshalb (zu Recht) rum.
^^ Vermutung: Deine VM 10110 liegt auf einem LVM, welches wohl über multipath auf ein iscsi-device zugreift.

Bitte poste (nachdem alle privaten infos raus sind) bitte die Dateien /etc/pve/qemu-server/10110.conf, die /etc/pve/storage.conf.

Weiters kommt es auch immer wieder dazu, dass eine VM read-only gemountet wird (ext4 FS mit Option errors=remount-ro), es also zu FS-Errors kommt.

Alles, was wir bisher dazu unternommen haben (https://pve.proxmox.com/wiki/ISCSI_Multipath einarbeiten), hat keine Veränderung gebracht.

Bitte kannst Du das iscsi-Setup genau beschreiben, also wie die netzwerkseitige Verkabelung, wie viele Switches, ob und wenn ja welches bonding (trunking) benutzt wird, welche mtu usw. Alternativ/ergänzend bitte einfach die Datei /etc/network/interfaces sowie (falls verändert) /etc/iscsi/iscsid.conf und /etc/iscsi/nodes/<TARGET>/<PORTAL>/default.

Und bitte erkläre doch mal die Schritte 8 und 9 Deines Postings genauer. Ist die multipath Konfiguration zwischen 7 und 8 geändert?

Gruß Lutz
 
Hi,

nur mal ein Schuß ins Blaue, da ich ein ähnliches Problem hatte:
Der Abschnitt blacklist sollte so aussehen:

blacklist {
wwid .*
}

Es ist wichtig, dass ein Punkt vor dem Sternchen steht. Früher stand in den Howtos immer "wwid *" (ohne Punkt) und funktionierte. Der Parser wurde aber offenbar geändert, jedenfalls hatte ich heute nach dem Upgrade von 3.4 auf 4.3 das gleiche Problem.
 
Liebe Leute!

Vielen Dank schon mal für die Anregungen. Urlaubsbedingt und aufgrund anderer akuter Probleme konnte ich hier noch nicht antworten. Anbei kommt unser Setup.

FC ist für uns keine Option. Aber danke für den Hinweis :)

Die Konfigurationen sind alle im ZIP.

Die Proxmox Server hängen alle an zwei Cisco SG500X, doppelt angebunden, jede Netzwerkkarte an einem Switch, zusammengefasst zu einem LAG. Eigentlich sind praktisch alle auf GbE, bis auf einen Server, der hat schon 10GbE Karten drinnen und hängt (wie auch das Nexsan Storage) auf den 10G Ports. Jumbo-Frames sind (noch) nicht aufgedreht, nirgendwo.

Alle Bonds sind durchwegs 802.3ad,
Code:
auto bond0
iface bond0 inet manual
        slaves eth0 eth1
        bond_miimon 100
        bond_mode 802.3ad
        bond_xmit_hash_policy layer3+4

iscsid.conf schaut m.E. ziemlich default aus.

Die 3 Targets:
default, ~_20 und ~_30 sind einfach unterschiedlichen Targets.

So, ich denke, damit sollte ich alles beantwortet haben, oder?

LG
Zelko
 

Attachments

  • RZ_physisches_Netzwerk_.png
    RZ_physisches_Netzwerk_.png
    46.3 KB · Views: 3
  • confs.zip
    7.2 KB · Views: 3
@coffeelover: ist diese Lösung nicht RHEL spezifisch? Wir arbeiten durchwegs mit Debian, auch die Proxmox-"unterlage" ist soweit ich weiß Debian... hat jemand auch schon mit dieser Lösung gute Erfahrungen gemacht? Da unsere produktiven Maschinen da drauf liegen, möchte ich ungern "experimentieren".

LG
Zelko
 
@coffeelover: ist diese Lösung nicht RHEL spezifisch? Wir arbeiten durchwegs mit Debian, auch die Proxmox-"unterlage" ist soweit ich weiß Debian... hat jemand auch schon mit dieser Lösung gute Erfahrungen gemacht? Da unsere produktiven Maschinen da drauf liegen, möchte ich ungern "experimentieren".

LG
Zelko

Vollkommen richtig, Proxmox basiert auf Debian. Aber es ist laut der Ausgabe
Code:
$ multipath -v3 (FAILED mit return code 1)
Jul 12 20:41:07 | error parsing config file
ja so, dass die Datei /etc/multipath.conf keine korrekte Syntax (mehr) hat. Da gilt es herauszufinden, welcher spezifische Parameter zwischen den Versionen weggefallen ist, oder bei welchem sich die Syntax geändert hat.

Ein blacklist * war ja zumindest nicht drin, dass kann also ausgeschlossen werden.
 
Ok, dann werd ich das mal so eintragen und austesten.... Einen Server haben wir im HA-Cluster, der praktisch nix mehr macht... Apropos: welche Möglichkeiten habe ich denn, um zu testen, ob Multipath gut und wie gewünscht läuft?

LG
Zelko
 
Apropos: welche Möglichkeiten habe ich denn, um zu testen, ob Multipath gut und wie gewünscht läuft?

Eigentlich nur multipath -ll kontrollieren. Dann kannste mal ein paar Kabel ziehen (angenommen 4-Weg-System, sonst nur eines ziehen) und die Ausgabe anschauen. Gut ist für die kontinuierliche Überwachung auch das Nagios-Plugin zu dem Thema.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!