Proxmox friert random ein

PhillipB · Nov 18, 2016

Hallo zusammen,

habe einen dedizierten Server bei OVH.

Proxmox 4 (Kernel Version Linux 4.4.21-1-pve #1 SMP Thu Oct 27 09:31:44 CEST 2016) ist auf einem Raid 1 (2x 480 GB SSD) installiert. Desweiteren haben ich ein Raid 1 für zwei 2 TB Festplatten, welches ich als extra Storage gemounted habe.

Randommäßig friert das System ein (communication failure) und es ist kein Zugriff mehr möglich (egal ob Weboberfläche oder SSH). Sobald ich den Server neu starte läuft es eine weile. Ich kann den Fehler leider nicht reproduzieren.

Anbei der Fehler:

megaraid_sas 0000:06:00.0: waitingfor controller reset to finish
megaraid_sas 0000:06:00.0: Found FW in FAULT state, will reset adapter scsi
megaraid_sas 0000:06:00.0: resetting fusion adapter scsi0.
[ 1680.603565] INFO: task pveproxy worker:5096 blocked for more than 120 seconds.
[ 1680.603565] Tainted: P O 4.4.21-1-pve #1
[ 1680.603566] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[ 1680.603567] pveproxy worker D ffff88081b90b8f8 0 5096 2591 0x00000000
[ 1680.603568] ffff88081b90b8f8 ffff880859050000 ffff88085bbc8dc0 ffff880854379b80
[ 1680.603569] ffff88081b90c000 ffff88085f257180 7fffffffffffffff ffffffff81850e40
[ 1680.603570] ffff88081b90ba58 ffff88081b90b910 ffffffff81850555 0000000000000000
[ 1680.603570] Call Trace:
[ 1680.603571] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603573] [<ffffffff81850555>] schedule+0x35/0x80
[ 1680.603574] [<ffffffff81853785>] schedule_timeout+0x235/0x2d0
[ 1680.603577] [<ffffffff818272ab>] ? br_deliver+0x5b/0x60
[ 1680.603578] [<ffffffff818246d6>] ? br_dev_xmit+0x1c6/0x270
[ 1680.603580] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603582] [<ffffffff8184fa4b>] io_schedule_timeout+0xbb/0x140
[ 1680.603583] [<ffffffff81850e5b>] bit_wait_io+0x1b/0x70
[ 1680.603585] [<ffffffff8185090f>] __wait_on_bit+0x5f/0x90
[ 1680.603586] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603588] [<ffffffff818509c1>] out_of_line_wait_on_bit+0x81/0xb0
[ 1680.603589] [<ffffffff810c4140>] ? autoremove_wake_function+0x40/0x40
[ 1680.603591] [<ffffffff812ec84f>] do_get_write_access+0x24f/0x4a0
[ 1680.603592] [<ffffffff81245b2b>] ? __getblk_gfp+0x2b/0x60
[ 1680.603593] [<ffffffff812ecad3>] jbd2_journal_get_write_access+0x33/0x60
[ 1680.603594] [<ffffffff812cfd8b>] __ext4_journal_get_write_access+0x3b/0x80
[ 1680.603596] [<ffffffff8129ea15>] ext4_reserve_inode_write+0x65/0x90
[ 1680.603597] [<ffffffff812a2348>] ? ext4_dirty_inode+0x48/0x70
[ 1680.603598] [<ffffffff8129ea93>] ext4_mark_inode_dirty+0x53/0x220
[ 1680.603599] [<ffffffff812a2348>] ext4_dirty_inode+0x48/0x70
[ 1680.603601] [<ffffffff8123c721>] __mark_inode_dirty+0x191/0x390
[ 1680.603602] [<ffffffff812291c9>] generic_update_time+0x79/0xd0
[ 1680.603604] [<ffffffff812287cd>] file_update_time+0xbd/0x110
[ 1680.603606] [<ffffffff81217ec4>] ? terminate_walk+0x64/0xd0
[ 1680.603607] [<ffffffff8118fa1d>] __generic_file_write_iter+0x9d/0x1f0
[ 1680.603609] [<ffffffff8121d9e5>] ? filename_lookup+0xf5/0x180
[ 1680.603610] [<ffffffff812950b8>] ext4_file_write_iter+0x228/0x460
[ 1680.603611] [<ffffffff811ebf7e>] ? kmem_cache_alloc+0x19e/0x200
[ 1680.603612] [<ffffffff8138eaba>] ? common_perm_cond+0x3a/0x50
[ 1680.603614] [<ffffffff8111e472>] ? from_kgid_munged+0x12/0x20
[ 1680.603615] [<ffffffff8120d24b>] new_sync_write+0x9b/0xe0
[ 1680.603617] [<ffffffff8120d2b6>] __vfs_write+0x26/0x40
[ 1680.603618] [<ffffffff8120d929>] vfs_write+0xa9/0x190
[ 1680.603619] [<ffffffff8120e705>] SyS_write+0x55/0xc0
[ 1680.603621] [<ffffffff81854676>] entry_SYSCALL_64_fastpath+0x16/0x75
[ 1753.310239] megaraid_sas 0000:06:00.0: Diag reset adapter never cleared megasas_adp_reset_fusion 2710

Hardwaredetails:
Intel Xeon D-1540
32 GB RAM DDR4 ECC 2133 MHz
2 x 2 TB + 2x4 80GB SSD HARDRAID
Hardware-RAID mit LSI MegaRAID 9271-4 mit 1GB Cache + CacheVault

Was bereits probiert wurde:

1.) OVH tauschte den kompletten Raid-Controller aus
Resultat: Keine Änderungen. Fehler trotzdem vorhanden
2.) OVH tauschte Mainboard und RAM-Siegel aus
Resultat: Keine Änderungen, Fehler trotzdem vorhanden

pveversion -v
proxmox-ve: 4.3-71 (running kernel: 4.4.21-1-pve)
pve-manager: 4.3-10 (running version: 4.3-10/7230e60f)
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.4.19-1-pve: 4.4.19-66
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-47
qemu-server: 4.0-94
pve-firmware: 1.1-10
libpve-common-perl: 4.0-80
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-68
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.3-14
pve-qemu-kvm: 2.7.0-6
pve-container: 1.0-81
pve-firewall: 2.0-31
pve-ha-manager: 1.0-35
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.5-1
lxcfs: 2.0.4-pve2
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80

PhillipB · Nov 18, 2016

Festplatten wurden auch überprüft, scheinen in Ordnung zu sein.

PhillipB · Nov 18, 2016

PhillipB · Nov 18, 2016

OVH sagte mir soeben, dass ich smartmontools löschen soll, da es Probleme zwischen smartmon und SSD's gäbe.
Wie smartmontools löschen, ohne die Softwarekomponenten von Proxmox zu löschen?

root@ns3016873:~# apt-get remove smartmontools -y
Paketlisten werden gelesen... Fertig
Abhängigkeitsbaum wird aufgebaut.
Statusinformationen werden eingelesen.... Fertig
Das folgende Paket wurde automatisch installiert und wird nicht mehr benötigt:
pve-docs
Verwenden Sie »apt-get autoremove«, um es zu entfernen.
Die folgenden Pakete werden ENTFERNT:
libpve-storage-perl proxmox-ve pve-container pve-ha-manager pve-manager
qemu-server smartmontools
0 aktualisiert, 0 neu installiert, 7 zu entfernen und 0 nicht aktualisiert.
Nach dieser Operation werden 2.524 kB Plattenplatz freigegeben.
(Lese Datenbank ... 49247 Dateien und Verzeichnisse sind derzeit installiert.)
Entfernen von proxmox-ve (4.3-71) ...
Entfernen von pve-manager (4.3-10) ...
Entfernen von pve-container (1.0-81) ...
Entfernen von pve-ha-manager (1.0-35) ...
Entfernen von qemu-server (4.0-94) ...
Entfernen von libpve-storage-perl (4.0-68) ...
Entfernen von smartmontools (6.5+svn4324-1~pve80) ...

LnxBil · Nov 19, 2016

Ja, ich habe auch einige Abstürze mit smartmontools bereits gehabt, aber auf externen Shelves. Noch habe ich keine Lösung des Problems.

Bei dir sieht es oben aber so aus, als würde sich der Treiber in Kombination mit der Firmware des Controllers verabschieden:

Code:

megaraid_sas 0000:06:00.0: waitingfor controller reset to finish
megaraid_sas 0000:06:00.0: Found FW in FAULT state, will reset adapter scsi
megaraid_sas 0000:06:00.0: resetting fusion adapter scsi0.

wurde das schon untersucht und an LSI gemeldet?

PhillipB · Nov 19, 2016

Noch nicht, wird gleich passieren. Dachte erst, dass es evtl. inkompatibel mit Proxmox 4 ist. Aktuell läuft Proxmox 3 drauf, sieht aber auch nicht viel besser aus.

LnxBil · Nov 20, 2016

Interessant ist immer was der erste Fehler ist, alles andere sind Folgefehler.

robhost · Nov 20, 2016

Ganz spontan würde ich hier auf einen defekten RAID Controller und/oder Mainboard und/oder RaiserCard tippen.
Wir haben recht viele LSI MegaRAID SAS 9271-4i mit PVE laufen, ohne Probleme. Allerdings ohne CacheVault.

LnxBil · Nov 20, 2016

Er hat ja geschrieben, dass das bereits getauscht wurde und keinerlei Besserung brachte. Gibt es vielleicht Bug-Einträge im Ubuntu-Kernel-Tracker zu dem Thema? Vielleicht ist es ja ein Zusammenspiel komischer Versionen

robhost · Nov 20, 2016

LnxBil said:
Er hat ja geschrieben, dass das bereits getauscht wurde und keinerlei Besserung brachte.

Oh stimmt, sorry - hatte das nur von den HDDs gelesen. RaiserCard könnte es dennoch sein.

Search

Search

Proxmox friert random ein

PhillipB

New Member

PhillipB

New Member

PhillipB

New Member

PhillipB

New Member

LnxBil

Distinguished Member

PhillipB

New Member

LnxBil

Distinguished Member

robhost

Active Member

LnxBil

Distinguished Member

robhost

Active Member