Too many open files

stats

Well-Known Member
Mar 6, 2017
45
1
48
Hello

I got a following messages from a node of my cluster. Then the node was fenced and rebooted automatically.
What is wrong? and How to fix it?
TooManyOpenFiles.png
Email messages I got are following.
Subject: FENCE: Try to fence node 'pxmx03'
Subject: SUCCEED: fencing: acknowledged - got agent lock for node 'pxmx03'
and the node was rebooted soon.
 
root@pxmx03:~# pveversion -v
proxmox-ve: 5.1-42 (running kernel: 4.13.16-2-pve)
pve-manager: 5.1-51 (running version: 5.1-51/96be5354)
pve-kernel-4.13: 5.1-44
pve-kernel-4.13.16-2-pve: 4.13.16-47
pve-kernel-4.13.13-6-pve: 4.13.13-42
pve-kernel-4.13.13-5-pve: 4.13.13-38
pve-kernel-4.13.8-3-pve: 4.13.8-30
pve-kernel-4.10.17-2-pve: 4.10.17-20
pve-kernel-4.4.67-1-pve: 4.4.67-92
pve-kernel-4.4.62-1-pve: 4.4.62-88
pve-kernel-4.4.44-1-pve: 4.4.44-84
pve-kernel-4.4.40-1-pve: 4.4.40-82
pve-kernel-4.4.6-1-pve: 4.4.6-48
corosync: 2.4.2-pve4
criu: 2.11.1-1~bpo90
glusterfs-client: 3.8.8-1
ksm-control-daemon: 1.2-2
libjs-extjs: 6.0.1-2
libpve-access-control: 5.0-8
libpve-apiclient-perl: 2.0-4
libpve-common-perl: 5.0-30
libpve-guest-common-perl: 2.0-14
libpve-http-server-perl: 2.0-8
libpve-storage-perl: 5.0-18
libqb0: 1.0.1-1
lvm2: 2.02.168-pve6
lxc-pve: 3.0.0-2
lxcfs: 3.0.0-1
novnc-pve: 0.6-4
proxmox-widget-toolkit: 1.0-15
pve-cluster: 5.0-25
pve-container: 2.0-21
pve-docs: 5.1-17
pve-firewall: 3.0-8
pve-firmware: 2.0-4
pve-ha-manager: 2.0-5
pve-i18n: 1.0-4
pve-libspice-server1: 0.12.8-3
pve-qemu-kvm: 2.11.1-5
pve-xtermjs: 1.0-2
qemu-server: 5.0-25
smartmontools: 6.5+svn4324-1
spiceterm: 3.0-5
vncterm: 1.5-3
zfsutils-linux: 0.7.7-pve1~bpo9
 
First, please update your installation. Second, please can you tell some information about your cluster (number of nodes, HA setup, ...)
 
I upgraded the latest version. I have 3 nodes. and one of 3 nodes got following errors.

Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't create file for mmap
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: qb_rb_open:pve2-request-2643-28396-1022: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: shm connection FAILED: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: Error in connection setup (2643-28396-1022): Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't open file /dev/shm/qb-pve2-request-2643-28396-1022-data: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't open file /var/run/qb-pve2-request-2643-28396-1022-data: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't create file for mmap
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: qb_rb_open:pve2-request-2643-28396-1022: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: shm connection FAILED: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: Error in connection setup (2643-28396-1022): Too many open files (24)
Aug 28 05:08:24 pxmx03 pve-ha-lrm[28396]: updating service status from manager failed: Too many open files
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't open file /dev/shm/qb-pve2-request-2643-28396-1022-data: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't open file /var/run/qb-pve2-request-2643-28396-1022-data: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: couldn't create file for mmap
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: qb_rb_open:pve2-request-2643-28396-1022: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: shm connection FAILED: Too many open files (24)
Aug 28 05:08:24 pxmx03 pmxcfs[2643]: [libqb] error: Error in connection setup (2643-28396-1022): Too many open files (24)
Aug 28 05:08:24 pxmx03 pve-ha-lrm[28396]: updating service status from manager failed: Too many open files
 

Attachments

  • promox-error.jpg
    promox-error.jpg
    76.2 KB · Views: 6
The server was forced to become 'FENCE' state again after these errors. So, I rebooted the server.
This is second time I got the email the server was fenced.
 
should it happen again, could you please post the output of `lsof -np $(pgrep -f /usr/bin/pmxcfs` ?
 
Hi,

I'm seeing the same issue on a small 3 node PVE / CEPH cluster.

pmxcfs has 1,000's of files open & there seems to be no way to stop it!
Although they all seem to be open in RAM, the sheer quantity freezes the server up after a while.

Eventually, the node with the issue crashes & failover initiates.

It seems to occur after I've done a number of migrations from one node to another, but that could be a red herring.
Any help with this would be appreciated!

Here's some for example:

Code:
COMMAND  PID USER   FD      TYPE             DEVICE SIZE/OFF     NODE NAME
pmxcfs  3088 root  cwd       DIR              253,0     4096        2 /
pmxcfs  3088 root  rtd       DIR              253,0     4096        2 /
pmxcfs  3088 root  txt       REG              253,0   182520   787180 /usr/bin/pmxcfs
pmxcfs  3088 root  mem       REG               0,24  1052672     6046 /dev/shm/qb-pve2-event-3088-2853076-1021-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6044 /dev/shm/qb-pve2-response-3088-2853076-1021-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6042 /dev/shm/qb-pve2-request-3088-2853076-1021-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6040 /dev/shm/qb-pve2-event-3088-2853075-1020-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6038 /dev/shm/qb-pve2-response-3088-2853075-1020-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6036 /dev/shm/qb-pve2-request-3088-2853075-1020-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6034 /dev/shm/qb-pve2-event-3088-2853074-1019-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6032 /dev/shm/qb-pve2-response-3088-2853074-1019-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6030 /dev/shm/qb-pve2-request-3088-2853074-1019-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6028 /dev/shm/qb-pve2-event-3088-2853073-1018-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6026 /dev/shm/qb-pve2-response-3088-2853073-1018-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6024 /dev/shm/qb-pve2-request-3088-2853073-1018-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6022 /dev/shm/qb-pve2-event-3088-2853071-1017-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6020 /dev/shm/qb-pve2-response-3088-2853071-1017-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6018 /dev/shm/qb-pve2-request-3088-2853071-1017-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6016 /dev/shm/qb-pve2-event-3088-2853070-1016-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6014 /dev/shm/qb-pve2-response-3088-2853070-1016-data
pmxcfs  3088 root  mem       REG               0,24  1052672     6012 /dev/shm/qb-pve2-request-3088-2853070-1016-data
.
.
.
pmxcfs  3088 root  398u     unix 0x00000000734e689d      0t0 20218952 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  399u     unix 0x00000000e7c97c47      0t0 20218953 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  400u     unix 0x000000003eb5397d      0t0 20218954 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  401u     unix 0x000000007e0d31f3      0t0 20217283 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  402u     unix 0x00000000e05cc0b0      0t0 20217308 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  403u     unix 0x000000004a428a8f      0t0 20221040 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  404u     unix 0x00000000fc21027f      0t0 20221041 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  405u     unix 0x00000000adecc0fb      0t0 20221042 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  406u     unix 0x0000000051d18dad      0t0 20221043 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  407u     unix 0x00000000076b11d6      0t0 20203499 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  408u     unix 0x00000000f075a437      0t0 20203500 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  409u     unix 0x000000005c138c3f      0t0 20203517 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  410u     unix 0x0000000076cb1d0a      0t0 20222982 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  411u     unix 0x00000000397eb657      0t0 20221108 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  412u     unix 0x0000000097b17ac6      0t0 20221109 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  413u     unix 0x00000000c60a70ec      0t0 20214280 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  414u     unix 0x000000000c063c80      0t0 20214281 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$
pmxcfs  3088 root  415u     unix 0x00000000b3b44a61      0t0 20204112 @pve2@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@$

Code:
proxmox-ve: 5.4-1 (running kernel: 4.15.18-14-pve)
pve-manager: 5.4-5 (running version: 5.4-5/c6fdb264)
pve-kernel-4.15: 5.4-2
pve-kernel-4.15.18-14-pve: 4.15.18-39
pve-kernel-4.15.18-11-pve: 4.15.18-34
pve-kernel-4.15.18-9-pve: 4.15.18-30
ceph: 12.2.12-pve1
corosync: 2.4.4-pve1
criu: 2.11.1-1~bpo90
glusterfs-client: 3.8.8-1
ksm-control-daemon: not correctly installed
libjs-extjs: 6.0.1-2
libpve-access-control: 5.1-9
libpve-apiclient-perl: 2.0-5
libpve-common-perl: 5.0-51
libpve-guest-common-perl: 2.0-20
libpve-http-server-perl: 2.0-13
libpve-storage-perl: 5.0-42
libqb0: 1.0.3-1~bpo9
lvm2: 2.02.168-pve6
lxc-pve: 3.1.0-3
lxcfs: 3.0.3-pve1
novnc-pve: 1.0.0-3
openvswitch-switch: 2.7.0-3
proxmox-widget-toolkit: 1.0-26
pve-cluster: 5.0-37
pve-container: 2.0-37
pve-docs: 5.4-2
pve-edk2-firmware: 1.20190312-1
pve-firewall: 3.0-20
pve-firmware: 2.0-6
pve-ha-manager: 2.0-9
pve-i18n: 1.1-4
pve-libspice-server1: 0.14.1-2
pve-qemu-kvm: 3.0.1-2
pve-xtermjs: 3.12.0-1
qemu-server: 5.0-51
smartmontools: 6.5+svn4324-1
spiceterm: 3.0-5
vncterm: 1.5-3