Hallo,
im Zusammenhang mit einem Upgrade von Proxmox VE von Ver. 3.4.11 nach 4.4-13 haben wir zwei Effekte beobachtet, die uns im Hinblick auf die Stabilität bzw. Integrität der Gastsysteme etwas beunruhigt.
Hardware:
HP Proliant, 2 x Xeon E5-2620, 64 GB RAM, RAID 5
Gastsysteme:
Linux-Server (insbes. SLES) mit Oracle- und MySQL-Datenbanken sowie Apache httpd; eine VM unter Windows; virtuelle SATA-Disks stets im Raw-Format
Upgrade:
Backup aller VMs im lzo-Format, danach Neuinstallation von Proxmox VE 4.4-13 (Storage für VM-Images als LVM-Thin)
Restaurieren der Gastsysteme:
lzo-Backups via NFS-Storage angebunden und VMs nacheinander restauriert.
=> Während des Restore kam es jeweils zu vorübergehenden Blockaden der den schon laufenden VMs (Dienste waren nicht erreichbar)
Später folgender weiterer Test:
Löschen einer VM (SLES 11, 2 Raw-Disks mit 24 bzw. 40 GB), danach Restaurieren des Backups dieser VM aus Proxmox VE 3.4-11 (GZIP-Format, 26 GB)
Parallel dazu auf einer laufenden VM (ebenfalls SLES):
Anlegen von 50 MB großen Dateien via dd if=/dev/zero of=... jeweils im Abstand von 10 Sek.
=> Ergebnis:
Restore in ca. 15 Min. ohne Fehlermeldung beendet, die andere VM befindet sich während der Schreiboperationen jedoch über weite Zeiträume lt. "top" im Zustand 100% I/O-Wait, in /var/log/messages gehäuft I/O-Fehler und page losts:
May 9 01:03:31 myhost kernel: [ 801.270781] end_request: I/O error, dev sda, sector 3648
May 9 01:03:31 myhost kernel: [ 801.270784] Write-error on swap-device (8:0:3656)
...
May 9 01:03:31 myhost kernel: [ 801.270800] sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
May 9 01:03:31 myhost kernel: [ 801.270802] sd 0:0:0:0: [sda] CDB: Write(10): 2a 00 00 00 0e 78 00 00 08 00
May 9 01:03:31 myhost kernel: [ 801.270807] end_request: I/O error, dev sda, sector 3704
...
May 9 01:03:32 myhost kernel: [ 801.270856] quiet_error: 21 callbacks suppressed
May 9 01:03:32 myhost kernel: [ 801.270858] Buffer I/O error on device sda2, logical block 3717448
May 9 01:03:32 myhost kernel: [ 801.270860] lost page write due to I/O error on sda2
...
May 9 01:05:33 myhost kernel: [ 923.260976] JBD: Detected IO errors while flushing file data on sda2
...
Hängt dieses Phänomen evtl. mit dem neuen LVM-Thin zusammen? Das darunter liegende Logical Volume war allerdings nie zu mehr als 30% ausgelastet?
Welche Storage-Art wäre zu empfehlen, wenn Stabilität als Kriterium ganz oben steht, insbesondere im Zusammenhang mit dem Betrieb von Oracle-Datenbanken?
Was wäre im Falle einer Umstellung von LVM-Thin auf LVM (oder eine andere Storage-Art) die beste Vorgehensweise?
Dank & viele Grüße
Markus
im Zusammenhang mit einem Upgrade von Proxmox VE von Ver. 3.4.11 nach 4.4-13 haben wir zwei Effekte beobachtet, die uns im Hinblick auf die Stabilität bzw. Integrität der Gastsysteme etwas beunruhigt.
Hardware:
HP Proliant, 2 x Xeon E5-2620, 64 GB RAM, RAID 5
Gastsysteme:
Linux-Server (insbes. SLES) mit Oracle- und MySQL-Datenbanken sowie Apache httpd; eine VM unter Windows; virtuelle SATA-Disks stets im Raw-Format
Upgrade:
Backup aller VMs im lzo-Format, danach Neuinstallation von Proxmox VE 4.4-13 (Storage für VM-Images als LVM-Thin)
Restaurieren der Gastsysteme:
lzo-Backups via NFS-Storage angebunden und VMs nacheinander restauriert.
=> Während des Restore kam es jeweils zu vorübergehenden Blockaden der den schon laufenden VMs (Dienste waren nicht erreichbar)
Später folgender weiterer Test:
Löschen einer VM (SLES 11, 2 Raw-Disks mit 24 bzw. 40 GB), danach Restaurieren des Backups dieser VM aus Proxmox VE 3.4-11 (GZIP-Format, 26 GB)
Parallel dazu auf einer laufenden VM (ebenfalls SLES):
Anlegen von 50 MB großen Dateien via dd if=/dev/zero of=... jeweils im Abstand von 10 Sek.
=> Ergebnis:
Restore in ca. 15 Min. ohne Fehlermeldung beendet, die andere VM befindet sich während der Schreiboperationen jedoch über weite Zeiträume lt. "top" im Zustand 100% I/O-Wait, in /var/log/messages gehäuft I/O-Fehler und page losts:
May 9 01:03:31 myhost kernel: [ 801.270781] end_request: I/O error, dev sda, sector 3648
May 9 01:03:31 myhost kernel: [ 801.270784] Write-error on swap-device (8:0:3656)
...
May 9 01:03:31 myhost kernel: [ 801.270800] sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
May 9 01:03:31 myhost kernel: [ 801.270802] sd 0:0:0:0: [sda] CDB: Write(10): 2a 00 00 00 0e 78 00 00 08 00
May 9 01:03:31 myhost kernel: [ 801.270807] end_request: I/O error, dev sda, sector 3704
...
May 9 01:03:32 myhost kernel: [ 801.270856] quiet_error: 21 callbacks suppressed
May 9 01:03:32 myhost kernel: [ 801.270858] Buffer I/O error on device sda2, logical block 3717448
May 9 01:03:32 myhost kernel: [ 801.270860] lost page write due to I/O error on sda2
...
May 9 01:05:33 myhost kernel: [ 923.260976] JBD: Detected IO errors while flushing file data on sda2
...
Hängt dieses Phänomen evtl. mit dem neuen LVM-Thin zusammen? Das darunter liegende Logical Volume war allerdings nie zu mehr als 30% ausgelastet?
Welche Storage-Art wäre zu empfehlen, wenn Stabilität als Kriterium ganz oben steht, insbesondere im Zusammenhang mit dem Betrieb von Oracle-Datenbanken?
Was wäre im Falle einer Umstellung von LVM-Thin auf LVM (oder eine andere Storage-Art) die beste Vorgehensweise?
Dank & viele Grüße
Markus