PVE 4.1 cluster fresh install high cpu load no vm's

ronsrussell · Dec 17, 2015

Dell C6100, dual six core L5640, 24G RAM
1 x 120G SanDisk SSD
2 x 240G Crucial SSD
4 x 160G Fujitsu SAS 15K

The problem I am seeing is that two of the four nodes present a constant load average of 3.
The other two present load average of 0.
There are NO VM's currently confgured.
The plan is to create a ceph cluster.
As a matter of fact these same servers were previously configured as a four node PVE/Ceph cluster and worked fine. We moved all the VM's to another cluster in order to upgrade this cluster to version 4. Here is pveversion info on the four nodes -

root@pmc1:~# pveversion -v
proxmox-ve: 4.1-26 (running kernel: 4.2.6-1-pve)
pve-manager: 4.1-1 (running version: 4.1-1/2f9650d4)
pve-kernel-4.2.6-1-pve: 4.2.6-26
pve-kernel-4.2.2-1-pve: 4.2.2-16
pve-kernel-4.2.3-2-pve: 4.2.3-22
lvm2: 2.02.116-pve2
corosync-pve: 2.3.5-2
libqb0: 0.17.2-1
pve-cluster: 4.0-29
qemu-server: 4.0-41
pve-firmware: 1.1-7
libpve-common-perl: 4.0-41
libpve-access-control: 4.0-10
libpve-storage-perl: 4.0-38
pve-libspice-server1: 0.12.5-2
vncterm: 1.2-1
pve-qemu-kvm: 2.4-17
pve-container: 1.0-32
pve-firewall: 2.0-14
pve-ha-manager: 1.0-14
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u1
lxc-pve: 1.1.5-5
lxcfs: 0.13-pve1
cgmanager: 0.39-pve1
criu: 1.6.0-1
zfsutils: 0.6.5-pve6~jessie

root@pmc2:~# pveversion -v
proxmox-ve: 4.1-26 (running kernel: 4.2.6-1-pve)
pve-manager: 4.1-1 (running version: 4.1-1/2f9650d4)
pve-kernel-4.2.6-1-pve: 4.2.6-26
pve-kernel-4.2.2-1-pve: 4.2.2-16
pve-kernel-4.2.3-2-pve: 4.2.3-22
lvm2: 2.02.116-pve2
corosync-pve: 2.3.5-2
libqb0: 0.17.2-1
pve-cluster: 4.0-29
qemu-server: 4.0-41
pve-firmware: 1.1-7
libpve-common-perl: 4.0-41
libpve-access-control: 4.0-10
libpve-storage-perl: 4.0-38
pve-libspice-server1: 0.12.5-2
vncterm: 1.2-1
pve-qemu-kvm: 2.4-17
pve-container: 1.0-32
pve-firewall: 2.0-14
pve-ha-manager: 1.0-14
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u1
lxc-pve: 1.1.5-5
lxcfs: 0.13-pve1
cgmanager: 0.39-pve1
criu: 1.6.0-1
zfsutils: 0.6.5-pve6~jessie

root@pmc3:~# pveversion -v
proxmox-ve: 4.1-26 (running kernel: 4.2.6-1-pve)
pve-manager: 4.1-1 (running version: 4.1-1/2f9650d4)
pve-kernel-4.2.6-1-pve: 4.2.6-26
pve-kernel-4.2.2-1-pve: 4.2.2-16
pve-kernel-4.2.3-2-pve: 4.2.3-22
lvm2: 2.02.116-pve2
corosync-pve: 2.3.5-2
libqb0: 0.17.2-1
pve-cluster: 4.0-29
qemu-server: 4.0-41
pve-firmware: 1.1-7
libpve-common-perl: 4.0-41
libpve-access-control: 4.0-10
libpve-storage-perl: 4.0-38
pve-libspice-server1: 0.12.5-2
vncterm: 1.2-1
pve-qemu-kvm: 2.4-17
pve-container: 1.0-32
pve-firewall: 2.0-14
pve-ha-manager: 1.0-14
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u1
lxc-pve: 1.1.5-5
lxcfs: 0.13-pve1
cgmanager: 0.39-pve1
criu: 1.6.0-1
zfsutils: 0.6.5-pve6~jessie

root@pmc4:~# pveversion -v
proxmox-ve: 4.1-26 (running kernel: 4.2.6-1-pve)
pve-manager: 4.1-1 (running version: 4.1-1/2f9650d4)
pve-kernel-4.2.6-1-pve: 4.2.6-26
pve-kernel-4.2.2-1-pve: 4.2.2-16
pve-kernel-4.2.3-2-pve: 4.2.3-22
lvm2: 2.02.116-pve2
corosync-pve: 2.3.5-2
libqb0: 0.17.2-1
pve-cluster: 4.0-29
qemu-server: 4.0-41
pve-firmware: 1.1-7
libpve-common-perl: 4.0-41
libpve-access-control: 4.0-10
libpve-storage-perl: 4.0-38
pve-libspice-server1: 0.12.5-2
vncterm: 1.2-1
pve-qemu-kvm: 2.4-17
pve-container: 1.0-32
pve-firewall: 2.0-14
pve-ha-manager: 1.0-14
ksm-control-daemon: 1.2-1
glusterfs-client: 3.5.2-2+deb8u1
lxc-pve: 1.1.5-5
lxcfs: 0.13-pve1
cgmanager: 0.39-pve1
criu: 1.6.0-1
zfsutils: 0.6.5-pve6~jessie

ronsrussell · Dec 17, 2015

ronsrussell · Dec 24, 2015

I would really appreciate a reply from one of the PVE gurus regarding this issue.

mir · Dec 24, 2015

Is BIOS and firmware versions identical on all nodes?

spirit · Dec 24, 2015

Do you see something special with "top" ?

ronsrussell · Dec 31, 2015

BIOS & firmware identical on the four nodes that are running on identical hardware.
TOP cmd on nodes 2 & 3 shows process kipmi0 using 100% CPU.
I see that kipmi0 is running on nodes 1 & 4 also but using virtually no CPU.

spirit · Dec 31, 2015

do you have installed openmanage ?
Also, if you reboot the node, does the problem disappear.
kipmi0 process is the ipmi kernel module, so it could be dell omsa polling sensors at a too much high rate.

ronsrussell · Jan 1, 2016

All four of these nodes were running PVE 3 for over a year with no problems.
I moved all VM's to another cluster in order to "upgrade by doing fresh install" to version 4.
After wiping all drives, I completed fresh installs of PVE4. Then I completed the ceph install. Nothing else has been installed.
Nodes have been rebooted numerous times.
Using "ps aux" command I see kipmi0 running on all four nodes but only on nodes 2 & 4 is it running at 99-100% CPU.
See screen shot showing side by side node 1 & 2 running top.

mir · Jan 1, 2016

Does one of the following pages give a solution to your problem?
http://www.itsprite.com/linux-kipmi0-eating-up-to-99-8-cpu-on-centos-6-4/
http://en.community.dell.com/support-forums/servers/f/956/t/19654190
http://interpip.es/uncategorized/internal-ipmi-error-stopping-kipmi0/

ronsrussell · Jan 1, 2016

The only relief I have found is from running this command which I discovered in another posting -
"echo 1 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us" which reduces kipmi0 CPU utilization to below 1%.

Search

Search

PVE 4.1 cluster fresh install high cpu load no vm's

ronsrussell

Renowned Member

ronsrussell

Renowned Member

ronsrussell

Renowned Member

mir

Famous Member

spirit

Distinguished Member

ronsrussell

Renowned Member

spirit

Distinguished Member

ronsrussell

Renowned Member

mir

Famous Member

ronsrussell

Renowned Member