Hallo zusammen,
habe einen dedizierten Server bei OVH.
Proxmox 4 (Kernel Version Linux 4.4.21-1-pve #1 SMP Thu Oct 27 09:31:44 CEST 2016) ist auf einem Raid 1 (2x 480 GB SSD) installiert. Desweiteren haben ich ein Raid 1 für zwei 2 TB Festplatten, welches ich als extra Storage gemounted habe.
Randommäßig friert das System ein (communication failure) und es ist kein Zugriff mehr möglich (egal ob Weboberfläche oder SSH). Sobald ich den Server neu starte läuft es eine weile. Ich kann den Fehler leider nicht reproduzieren.
Anbei der Fehler:
megaraid_sas 0000:06:00.0: waitingfor controller reset to finish
megaraid_sas 0000:06:00.0: Found FW in FAULT state, will reset adapter scsi
megaraid_sas 0000:06:00.0: resetting fusion adapter scsi0.
[ 1680.603565] INFO: task pveproxy worker:5096 blocked for more than 120 seconds.
[ 1680.603565] Tainted: P O 4.4.21-1-pve #1
[ 1680.603566] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[ 1680.603567] pveproxy worker D ffff88081b90b8f8 0 5096 2591 0x00000000
[ 1680.603568] ffff88081b90b8f8 ffff880859050000 ffff88085bbc8dc0 ffff880854379b80
[ 1680.603569] ffff88081b90c000 ffff88085f257180 7fffffffffffffff ffffffff81850e40
[ 1680.603570] ffff88081b90ba58 ffff88081b90b910 ffffffff81850555 0000000000000000
[ 1680.603570] Call Trace:
[ 1680.603571] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603573] [<ffffffff81850555>] schedule+0x35/0x80
[ 1680.603574] [<ffffffff81853785>] schedule_timeout+0x235/0x2d0
[ 1680.603577] [<ffffffff818272ab>] ? br_deliver+0x5b/0x60
[ 1680.603578] [<ffffffff818246d6>] ? br_dev_xmit+0x1c6/0x270
[ 1680.603580] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603582] [<ffffffff8184fa4b>] io_schedule_timeout+0xbb/0x140
[ 1680.603583] [<ffffffff81850e5b>] bit_wait_io+0x1b/0x70
[ 1680.603585] [<ffffffff8185090f>] __wait_on_bit+0x5f/0x90
[ 1680.603586] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603588] [<ffffffff818509c1>] out_of_line_wait_on_bit+0x81/0xb0
[ 1680.603589] [<ffffffff810c4140>] ? autoremove_wake_function+0x40/0x40
[ 1680.603591] [<ffffffff812ec84f>] do_get_write_access+0x24f/0x4a0
[ 1680.603592] [<ffffffff81245b2b>] ? __getblk_gfp+0x2b/0x60
[ 1680.603593] [<ffffffff812ecad3>] jbd2_journal_get_write_access+0x33/0x60
[ 1680.603594] [<ffffffff812cfd8b>] __ext4_journal_get_write_access+0x3b/0x80
[ 1680.603596] [<ffffffff8129ea15>] ext4_reserve_inode_write+0x65/0x90
[ 1680.603597] [<ffffffff812a2348>] ? ext4_dirty_inode+0x48/0x70
[ 1680.603598] [<ffffffff8129ea93>] ext4_mark_inode_dirty+0x53/0x220
[ 1680.603599] [<ffffffff812a2348>] ext4_dirty_inode+0x48/0x70
[ 1680.603601] [<ffffffff8123c721>] __mark_inode_dirty+0x191/0x390
[ 1680.603602] [<ffffffff812291c9>] generic_update_time+0x79/0xd0
[ 1680.603604] [<ffffffff812287cd>] file_update_time+0xbd/0x110
[ 1680.603606] [<ffffffff81217ec4>] ? terminate_walk+0x64/0xd0
[ 1680.603607] [<ffffffff8118fa1d>] __generic_file_write_iter+0x9d/0x1f0
[ 1680.603609] [<ffffffff8121d9e5>] ? filename_lookup+0xf5/0x180
[ 1680.603610] [<ffffffff812950b8>] ext4_file_write_iter+0x228/0x460
[ 1680.603611] [<ffffffff811ebf7e>] ? kmem_cache_alloc+0x19e/0x200
[ 1680.603612] [<ffffffff8138eaba>] ? common_perm_cond+0x3a/0x50
[ 1680.603614] [<ffffffff8111e472>] ? from_kgid_munged+0x12/0x20
[ 1680.603615] [<ffffffff8120d24b>] new_sync_write+0x9b/0xe0
[ 1680.603617] [<ffffffff8120d2b6>] __vfs_write+0x26/0x40
[ 1680.603618] [<ffffffff8120d929>] vfs_write+0xa9/0x190
[ 1680.603619] [<ffffffff8120e705>] SyS_write+0x55/0xc0
[ 1680.603621] [<ffffffff81854676>] entry_SYSCALL_64_fastpath+0x16/0x75
[ 1753.310239] megaraid_sas 0000:06:00.0: Diag reset adapter never cleared megasas_adp_reset_fusion 2710
Hardwaredetails:
Intel Xeon D-1540
32 GB RAM DDR4 ECC 2133 MHz
2 x 2 TB + 2x4 80GB SSD HARDRAID
Hardware-RAID mit LSI MegaRAID 9271-4 mit 1GB Cache + CacheVault
Was bereits probiert wurde:
1.) OVH tauschte den kompletten Raid-Controller aus
Resultat: Keine Änderungen. Fehler trotzdem vorhanden
2.) OVH tauschte Mainboard und RAM-Siegel aus
Resultat: Keine Änderungen, Fehler trotzdem vorhanden
pveversion -v
proxmox-ve: 4.3-71 (running kernel: 4.4.21-1-pve)
pve-manager: 4.3-10 (running version: 4.3-10/7230e60f)
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.4.19-1-pve: 4.4.19-66
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-47
qemu-server: 4.0-94
pve-firmware: 1.1-10
libpve-common-perl: 4.0-80
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-68
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.3-14
pve-qemu-kvm: 2.7.0-6
pve-container: 1.0-81
pve-firewall: 2.0-31
pve-ha-manager: 1.0-35
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.5-1
lxcfs: 2.0.4-pve2
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80
habe einen dedizierten Server bei OVH.
Proxmox 4 (Kernel Version Linux 4.4.21-1-pve #1 SMP Thu Oct 27 09:31:44 CEST 2016) ist auf einem Raid 1 (2x 480 GB SSD) installiert. Desweiteren haben ich ein Raid 1 für zwei 2 TB Festplatten, welches ich als extra Storage gemounted habe.
Randommäßig friert das System ein (communication failure) und es ist kein Zugriff mehr möglich (egal ob Weboberfläche oder SSH). Sobald ich den Server neu starte läuft es eine weile. Ich kann den Fehler leider nicht reproduzieren.
Anbei der Fehler:
megaraid_sas 0000:06:00.0: waitingfor controller reset to finish
megaraid_sas 0000:06:00.0: Found FW in FAULT state, will reset adapter scsi
megaraid_sas 0000:06:00.0: resetting fusion adapter scsi0.
[ 1680.603565] INFO: task pveproxy worker:5096 blocked for more than 120 seconds.
[ 1680.603565] Tainted: P O 4.4.21-1-pve #1
[ 1680.603566] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[ 1680.603567] pveproxy worker D ffff88081b90b8f8 0 5096 2591 0x00000000
[ 1680.603568] ffff88081b90b8f8 ffff880859050000 ffff88085bbc8dc0 ffff880854379b80
[ 1680.603569] ffff88081b90c000 ffff88085f257180 7fffffffffffffff ffffffff81850e40
[ 1680.603570] ffff88081b90ba58 ffff88081b90b910 ffffffff81850555 0000000000000000
[ 1680.603570] Call Trace:
[ 1680.603571] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603573] [<ffffffff81850555>] schedule+0x35/0x80
[ 1680.603574] [<ffffffff81853785>] schedule_timeout+0x235/0x2d0
[ 1680.603577] [<ffffffff818272ab>] ? br_deliver+0x5b/0x60
[ 1680.603578] [<ffffffff818246d6>] ? br_dev_xmit+0x1c6/0x270
[ 1680.603580] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603582] [<ffffffff8184fa4b>] io_schedule_timeout+0xbb/0x140
[ 1680.603583] [<ffffffff81850e5b>] bit_wait_io+0x1b/0x70
[ 1680.603585] [<ffffffff8185090f>] __wait_on_bit+0x5f/0x90
[ 1680.603586] [<ffffffff81850e40>] ? bit_wait_timeout+0xa0/0xa0
[ 1680.603588] [<ffffffff818509c1>] out_of_line_wait_on_bit+0x81/0xb0
[ 1680.603589] [<ffffffff810c4140>] ? autoremove_wake_function+0x40/0x40
[ 1680.603591] [<ffffffff812ec84f>] do_get_write_access+0x24f/0x4a0
[ 1680.603592] [<ffffffff81245b2b>] ? __getblk_gfp+0x2b/0x60
[ 1680.603593] [<ffffffff812ecad3>] jbd2_journal_get_write_access+0x33/0x60
[ 1680.603594] [<ffffffff812cfd8b>] __ext4_journal_get_write_access+0x3b/0x80
[ 1680.603596] [<ffffffff8129ea15>] ext4_reserve_inode_write+0x65/0x90
[ 1680.603597] [<ffffffff812a2348>] ? ext4_dirty_inode+0x48/0x70
[ 1680.603598] [<ffffffff8129ea93>] ext4_mark_inode_dirty+0x53/0x220
[ 1680.603599] [<ffffffff812a2348>] ext4_dirty_inode+0x48/0x70
[ 1680.603601] [<ffffffff8123c721>] __mark_inode_dirty+0x191/0x390
[ 1680.603602] [<ffffffff812291c9>] generic_update_time+0x79/0xd0
[ 1680.603604] [<ffffffff812287cd>] file_update_time+0xbd/0x110
[ 1680.603606] [<ffffffff81217ec4>] ? terminate_walk+0x64/0xd0
[ 1680.603607] [<ffffffff8118fa1d>] __generic_file_write_iter+0x9d/0x1f0
[ 1680.603609] [<ffffffff8121d9e5>] ? filename_lookup+0xf5/0x180
[ 1680.603610] [<ffffffff812950b8>] ext4_file_write_iter+0x228/0x460
[ 1680.603611] [<ffffffff811ebf7e>] ? kmem_cache_alloc+0x19e/0x200
[ 1680.603612] [<ffffffff8138eaba>] ? common_perm_cond+0x3a/0x50
[ 1680.603614] [<ffffffff8111e472>] ? from_kgid_munged+0x12/0x20
[ 1680.603615] [<ffffffff8120d24b>] new_sync_write+0x9b/0xe0
[ 1680.603617] [<ffffffff8120d2b6>] __vfs_write+0x26/0x40
[ 1680.603618] [<ffffffff8120d929>] vfs_write+0xa9/0x190
[ 1680.603619] [<ffffffff8120e705>] SyS_write+0x55/0xc0
[ 1680.603621] [<ffffffff81854676>] entry_SYSCALL_64_fastpath+0x16/0x75
[ 1753.310239] megaraid_sas 0000:06:00.0: Diag reset adapter never cleared megasas_adp_reset_fusion 2710
Hardwaredetails:
Intel Xeon D-1540
32 GB RAM DDR4 ECC 2133 MHz
2 x 2 TB + 2x4 80GB SSD HARDRAID
Hardware-RAID mit LSI MegaRAID 9271-4 mit 1GB Cache + CacheVault
Was bereits probiert wurde:
1.) OVH tauschte den kompletten Raid-Controller aus
Resultat: Keine Änderungen. Fehler trotzdem vorhanden
2.) OVH tauschte Mainboard und RAM-Siegel aus
Resultat: Keine Änderungen, Fehler trotzdem vorhanden
pveversion -v
proxmox-ve: 4.3-71 (running kernel: 4.4.21-1-pve)
pve-manager: 4.3-10 (running version: 4.3-10/7230e60f)
pve-kernel-4.4.21-1-pve: 4.4.21-71
pve-kernel-4.4.19-1-pve: 4.4.19-66
lvm2: 2.02.116-pve3
corosync-pve: 2.4.0-1
libqb0: 1.0-1
pve-cluster: 4.0-47
qemu-server: 4.0-94
pve-firmware: 1.1-10
libpve-common-perl: 4.0-80
libpve-access-control: 4.0-19
libpve-storage-perl: 4.0-68
pve-libspice-server1: 0.12.8-1
vncterm: 1.2-1
pve-docs: 4.3-14
pve-qemu-kvm: 2.7.0-6
pve-container: 1.0-81
pve-firewall: 2.0-31
pve-ha-manager: 1.0-35
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u2
lxc-pve: 2.0.5-1
lxcfs: 2.0.4-pve2
criu: 1.6.0-1
novnc-pve: 0.5-8
smartmontools: 6.5+svn4324-1~pve80
zfsutils: 0.6.5.8-pve13~bpo80