Hallo zusammen,
ich teste gerade eine Konfiguration mit Proxmox VE 5.3-8
und habe ein Problen mit zwei NVME SSDs.
Die Grundinstallation hängt an zwei SATA SSD Platten auf denen ich zuerst die virtuellen Maschinen getestet habe. Hierbei gibt es auch keine Probleme - jetzt wollte ich noch zwei NVME hinzufügen und die beiden per
ZFS-Mirror einbinden. Das Verschieben der virtuellen Platten hat schon sehr lange gedauert und ich dachte eventuell wäre das ZFS schuld. Also habe ich den zpool aufgelöst und die NVME Platten mal direkt als LVM eingebunden. Hierbei zeigt sich das gleiche Bild. Die Maschinen bleiben oft komplett für einige Sekunden stehen und laufen dann weiter. Ein Blick in dmesg zeigt dann anscheinend die Ursache:
Das einzig Sinnvolle, was ich dazu finden konnte:
bugs.launchpad.net/ubuntu/+source/linux/+bug/1807393
Was ich bereits versucht habe:
- Firmware der NVME updaten: (war up-to-date)
- Firmware des Boards updaten: (auch up-to-date)
- Karten umstecken
- OptionRom an/abschalten
- IOMMU ein/aus
Zum System:
Der Server hat ein Supermicro H11DSI Board, 64GB ECC Hauptspeicher, eine X710 10GbE SFP+ Karte, zwei Samsung DC SSD (SATA), zwei Intel DC P4510 (stecken direkt auf dem PCI Bus).
(Bzw. ob noch im Kernel was angepasst werden muss)
Gruß Björn
====
Nachtrag: Es scheint wohl wirklich am Kernel zu liegen.
Der Ubuntu-Linux-Kernel (4.18.0-10) hat keine Probleme mit den Platten.
Also jetzt auf einen Patch warten?
ich teste gerade eine Konfiguration mit Proxmox VE 5.3-8
und habe ein Problen mit zwei NVME SSDs.
Die Grundinstallation hängt an zwei SATA SSD Platten auf denen ich zuerst die virtuellen Maschinen getestet habe. Hierbei gibt es auch keine Probleme - jetzt wollte ich noch zwei NVME hinzufügen und die beiden per
ZFS-Mirror einbinden. Das Verschieben der virtuellen Platten hat schon sehr lange gedauert und ich dachte eventuell wäre das ZFS schuld. Also habe ich den zpool aufgelöst und die NVME Platten mal direkt als LVM eingebunden. Hierbei zeigt sich das gleiche Bild. Die Maschinen bleiben oft komplett für einige Sekunden stehen und laufen dann weiter. Ein Blick in dmesg zeigt dann anscheinend die Ursache:
Code:
[...]
[ 607.451494] nvme nvme0: I/O 180 QID 28 timeout, completion polled
[ 607.451505] nvme nvme0: I/O 243 QID 34 timeout, completion polled
[ 607.451511] nvme nvme0: I/O 768 QID 36 timeout, completion polled
[ 607.451556] nvme nvme0: I/O 37 QID 39 timeout, completion polled
[ 607.451569] nvme nvme1: I/O 311 QID 42 timeout, completion polled
[ 607.451575] nvme nvme0: I/O 990 QID 51 timeout, completion polled
[ 607.451581] nvme nvme0: I/O 58 QID 53 timeout, completion polled
[...]
Das einzig Sinnvolle, was ich dazu finden konnte:
bugs.launchpad.net/ubuntu/+source/linux/+bug/1807393
Was ich bereits versucht habe:
- Firmware der NVME updaten: (war up-to-date)
- Firmware des Boards updaten: (auch up-to-date)
- Karten umstecken
- OptionRom an/abschalten
- IOMMU ein/aus
Zum System:
CPU(s): 64 x AMD EPYC 7351 16-Core Processor (2 Sockets)
Kernelversion: Linux 4.15.18-10-pve #1 SMP
PVE 4.15.18-32 (Sat, 19 Jan 2019 10:09:37 +0100)
Der Server hat ein Supermicro H11DSI Board, 64GB ECC Hauptspeicher, eine X710 10GbE SFP+ Karte, zwei Samsung DC SSD (SATA), zwei Intel DC P4510 (stecken direkt auf dem PCI Bus).
Base Board Information
Manufacturer: Supermicro
Product Name: H11DSi
Version: 1.01
Serial Number:
Features:
Board is a hosting board
Board is removable
Board is replaceable
Chassis Handle: 0x0003
Type: Motherboard
Contained Object Handles: 0
Hat noch jemand eine Idee was man tun könnte, ohne auf die neuen Platten zu verzichten?smartctl -a /dev/nvme0n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.18-10-pve] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke
=== START OF INFORMATION SECTION ===
Model Number: INTEL SSDPE2KX010T8
Serial Number:
Firmware Version: VDV10131
PCI Vendor/Subsystem ID: 0x8086
IEEE OUI Identifier: 0x5cd2e4
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 0
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size: 512
smartctl -a /dev/nvme1n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.18-10-pve] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke
=== START OF INFORMATION SECTION ===
Model Number: INTEL SSDPE2KX010T8
Serial Number:
Firmware Version: VDV10131
PCI Vendor/Subsystem ID: 0x8086
IEEE OUI Identifier: 0x5cd2e4
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 0
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size: 512
(Bzw. ob noch im Kernel was angepasst werden muss)
Gruß Björn
====
Nachtrag: Es scheint wohl wirklich am Kernel zu liegen.
Der Ubuntu-Linux-Kernel (4.18.0-10) hat keine Probleme mit den Platten.
Also jetzt auf einen Patch warten?
Last edited: