Proxmox friert random ein

PhillipB

New Member
Nov 18, 2016
5
0
1
30
Hallo zusammen,

habe einen dedizierten Server bei OVH.

Proxmox 4 (Kernel Version Linux 4.4.21-1-pve #1 SMP Thu Oct 27 09:31:44 CEST 2016) ist auf einem Raid 1 (2x 480 GB SSD) installiert. Desweiteren haben ich ein Raid 1 für zwei 2 TB Festplatten, welches ich als extra Storage gemounted habe.

Randommäßig friert das System ein (communication failure) und es ist kein Zugriff mehr möglich (egal ob Weboberfläche oder SSH). Sobald ich den Server neu starte läuft es eine weile. Ich kann den Fehler leider nicht reproduzieren.

Anbei der Fehler:

megaraid_sas 0000:06:00.0: waitingfor controller reset to finish
megaraid_sas 0000:06:00.0: Found FW in FAULT state, will reset adapter scsi
megaraid_sas 0000:06:00.0: resetting fusion adapter scsi0.
[ 1680.603565] INFO: task pveproxy worker:5096 blocked for more than 120 seconds.
[ 1680.603565] Tainted: P O 4.4.21-1-pve #1
[ 1680.603566] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[ 1680.603567] pveproxy worker D ffff88081b90b8f8 0 5096 2591 0x00000000
[ 1680.603568] ffff88081b90b8f8 ffff880859050000 ffff88085bbc8dc0 ffff880854379b80
[ 1680.603569] ffff88081b90c000 ffff88085f257180 7fffffffffffffff ffffffff81850e40
[ 1680.603570] ffff88081b90ba58 ffff88081b90b910 ffffffff81850555 0000000000000000
[ 1680.603570] Call Trace:
[ 1680.603571] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603573] [<ffffffff81850555>] schedule+0x35/0x80
[ 1680.603574] [<ffffffff81853785>] schedule_timeout+0x235/0x2d0
[ 1680.603577] [<ffffffff818272ab>] ? br_deliver+0x5b/0x60
[ 1680.603578] [<ffffffff818246d6>] ? br_dev_xmit+0x1c6/0x270
[ 1680.603580] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603582] [<ffffffff8184fa4b>] io_schedule_timeout+0xbb/0x140
[ 1680.603583] [<ffffffff81850e5b>] bit_wait_io+0x1b/0x70
[ 1680.603585] [<ffffffff8185090f>] __wait_on_bit+0x5f/0x90
[ 1680.603586] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603588] [<ffffffff818509c1>] out_of_line_wait_on_bit+0x81/0xb0
[ 1680.603589] [<ffffffff810c4140>] ? autoremove_wake_function+0x40/0x40
[ 1680.603591] [<ffffffff812ec84f>] do_get_write_access+0x24f/0x4a0
[ 1680.603592] [<ffffffff81245b2b>] ? __getblk_gfp+0x2b/0x60
[ 1680.603593] [<ffffffff812ecad3>] jbd2_journal_get_write_access+0x33/0x60
[ 1680.603594] [<ffffffff812cfd8b>] __ext4_journal_get_write_access+0x3b/0x80
[ 1680.603596] [<ffffffff8129ea15>] ext4_reserve_inode_write+0x65/0x90
[ 1680.603597] [<ffffffff812a2348>] ? ext4_dirty_inode+0x48/0x70
[ 1680.603598] [<ffffffff8129ea93>] ext4_mark_inode_dirty+0x53/0x220
[ 1680.603599] [<ffffffff812a2348>] ext4_dirty_inode+0x48/0x70
[ 1680.603601] [<ffffffff8123c721>] __mark_inode_dirty+0x191/0x390
[ 1680.603602] [<ffffffff812291c9>] generic_update_time+0x79/0xd0
[ 1680.603604] [<ffffffff812287cd>] file_update_time+0xbd/0x110
[ 1680.603606] [<ffffffff81217ec4>] ? terminate_walk+0x64/0xd0
[ 1680.603607] [<ffffffff8118fa1d>] __generic_file_write_iter+0x9d/0x1f0
[ 1680.603609] [<ffffffff8121d9e5>] ? filename_lookup+0xf5/0x180
[ 1680.603610] [<ffffffff812950b8>] ext4_file_write_iter+0x228/0x460
[ 1680.603611] [<ffffffff811ebf7e>] ? kmem_cache_alloc+0x19e/0x200
[ 1680.603612] [<ffffffff8138eaba>] ? common_perm_cond+0x3a/0x50
[ 1680.603614] [<ffffffff8111e472>] ? from_kgid_munged+0x12/0x20
[ 1680.603615] [<ffffffff8120d24b>] new_sync_write+0x9b/0xe0
[ 1680.603617] [<ffffffff8120d2b6>] __vfs_write+0x26/0x40
[ 1680.603618] [<ffffffff8120d929>] vfs_write+0xa9/0x190
[ 1680.603619] [<ffffffff8120e705>] SyS_write+0x55/0xc0
[ 1680.603621] [<ffffffff81854676>] entry_SYSCALL_64_fastpath+0x16/0x75
[ 1753.310239] megaraid_sas 0000:06:00.0: Diag reset adapter never cleared megasas_adp_reset_fusion 2710

Hardwaredetails:
Intel Xeon D-1540
32 GB RAM DDR4 ECC 2133 MHz
2 x 2 TB + 2x4 80GB SSD HARDRAID
Hardware-RAID mit LSI MegaRAID 9271-4 mit 1GB Cache + CacheVault


Was bereits probiert wurde:

1.) OVH tauschte den kompletten Raid-Controller aus
Resultat: Keine Änderungen. Fehler trotzdem vorhanden
2.) OVH tauschte Mainboard und RAM-Siegel aus
Resultat: Keine Änderungen, Fehler trotzdem vorhanden


pveversion -v
proxmox-ve: 4.3-71 (running kernel: 4.4.21-1-pve)
pve-manager: 4.3-10 (running version: 4.3-10/7230e60f)
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.4.19-1-pve: 4.4.19-66
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-47
qemu-server: 4.0-94
pve-firmware: 1.1-10
libpve-common-perl: 4.0-80
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-68
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.3-14
pve-qemu-kvm: 2.7.0-6
pve-container: 1.0-81
pve-firewall: 2.0-31
pve-ha-manager: 1.0-35
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.5-1
lxcfs: 2.0.4-pve2
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80
 
4bbc98539b.png
 
OVH sagte mir soeben, dass ich smartmontools löschen soll, da es Probleme zwischen smartmon und SSD's gäbe.
Wie smartmontools löschen, ohne die Softwarekomponenten von Proxmox zu löschen?

root@ns3016873:~# apt-get remove smartmontools -y
Paketlisten werden gelesen... Fertig
Abhängigkeitsbaum wird aufgebaut.
Statusinformationen werden eingelesen.... Fertig
Das folgende Paket wurde automatisch installiert und wird nicht mehr benötigt:
pve-docs
Verwenden Sie »apt-get autoremove«, um es zu entfernen.
Die folgenden Pakete werden ENTFERNT:
libpve-storage-perl proxmox-ve pve-container pve-ha-manager pve-manager
qemu-server smartmontools
0 aktualisiert, 0 neu installiert, 7 zu entfernen und 0 nicht aktualisiert.
Nach dieser Operation werden 2.524 kB Plattenplatz freigegeben.
(Lese Datenbank ... 49247 Dateien und Verzeichnisse sind derzeit installiert.)
Entfernen von proxmox-ve (4.3-71) ...
Entfernen von pve-manager (4.3-10) ...
Entfernen von pve-container (1.0-81) ...
Entfernen von pve-ha-manager (1.0-35) ...
Entfernen von qemu-server (4.0-94) ...
Entfernen von libpve-storage-perl (4.0-68) ...
Entfernen von smartmontools (6.5+svn4324-1~pve80) ...
 
Ja, ich habe auch einige Abstürze mit smartmontools bereits gehabt, aber auf externen Shelves. Noch habe ich keine Lösung des Problems.

Bei dir sieht es oben aber so aus, als würde sich der Treiber in Kombination mit der Firmware des Controllers verabschieden:

Code:
megaraid_sas 0000:06:00.0: waitingfor controller reset to finish
megaraid_sas 0000:06:00.0: Found FW in FAULT state, will reset adapter scsi
megaraid_sas 0000:06:00.0: resetting fusion adapter scsi0.

wurde das schon untersucht und an LSI gemeldet?
 
Noch nicht, wird gleich passieren. Dachte erst, dass es evtl. inkompatibel mit Proxmox 4 ist. Aktuell läuft Proxmox 3 drauf, sieht aber auch nicht viel besser aus.

6f685ec463.png
 
Last edited:
Ganz spontan würde ich hier auf einen defekten RAID Controller und/oder Mainboard und/oder RaiserCard tippen.
Wir haben recht viele LSI MegaRAID SAS 9271-4i mit PVE laufen, ohne Probleme. Allerdings ohne CacheVault.
 
Er hat ja geschrieben, dass das bereits getauscht wurde und keinerlei Besserung brachte. Gibt es vielleicht Bug-Einträge im Ubuntu-Kernel-Tracker zu dem Thema? Vielleicht ist es ja ein Zusammenspiel komischer Versionen
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!