Crash - too many open files

Chris Strauch · Nov 18, 2021

Hallo zusammen,

wir haben folgendes Problem das derzeit ständig ein Proxmox in Cluster stirbt mit der Meldung "too many open files"

Wir haben das Problem schon ein wenig eingrenzen können:

Wir haben etliche inotify meldungen:

Code:

Nov 18 12:30:43 proxmoxsm37 pve-ha-lrm[853150]: got unexpected error - Unable to create new inotify object: Too many open files at /usr/share/perl5/PVE/INotify.pm line 398.
Nov 18 12:30:43 proxmoxsm37 pve-ha-lrm[853154]: got unexpected error - Unable to create new inotify object: Too many open files at /usr/share/perl5/PVE/INotify.pm line 398.
Nov 18 12:30:44 proxmoxsm37 pve-ha-lrm[853169]: got unexpected error - Unable to create new inotify object: Too many open files at /usr/share/perl5/PVE/INotify.pm line 398.
Nov 18 12:30:44 proxmoxsm37 pve-ha-lrm[853170]: got unexpected error - Unable to create new inotify object: Too many open files at /usr/share/perl5/PVE/INotify.pm line 398.

root@proxmoxsm37:/var/log# find /proc/*/fd -lname anon_inode:inotify 2> /dev/null | awk -F/ '{ print $3 }' | sort -u | wc -l
137

Weiterhin haben wir folgenden Fehler:

Code:

Nov 18 12:20:22 proxmoxsm37 pmxcfs[3144]: [libqb] error: qb_rb_open:/dev/shm/qb-3144-516854-1022-JZlEYT/qb-request-pve2: Too many open files (24)
Nov 18 12:20:22 proxmoxsm37 pmxcfs[3144]: [libqb] error: shm connection FAILED: Too many open files (24)
Nov 18 12:20:22 proxmoxsm37 pmxcfs[3144]: [libqb] error: Error in connection setup (/dev/shm/qb-3144-516854-1022-JZlEYT/qb): Too many open files (24)
Nov 18 12:20:22 proxmoxsm37 pve-ha-lrm[516854]: updating service status from manager failed: Too many open files
Nov 18 12:20:23 proxmoxsm37 pmxcfs[3144]: [libqb] error: couldn't open file /dev/shm/qb-3144-491680-1022-2jLObY/qb-request-pve2-data: Too many open files (24)
Nov 18 12:20:23 proxmoxsm37 pmxcfs[3144]: [libqb] error: couldn't create file for mmap
Nov 18 12:20:23 proxmoxsm37 pmxcfs[3144]: [libqb] error: qb_rb_open:/dev/shm/qb-3144-491680-1022-2jLObY/qb-request-pve2: Too many open files (24)
Nov 18 12:20:23 proxmoxsm37 pmxcfs[3144]: [libqb] error: shm connection FAILED: Too many open files (24)
Nov 18 12:20:23 proxmoxsm37 pmxcfs[3144]: [libqb] error: Error in connection setup (/dev/shm/qb-3144-491680-1022-2jLObY/qb): Too many open files (24)
Nov 18 12:20:23 proxmoxsm37 pmxcfs[3144]: [libqb] error: couldn't open file /dev/shm/qb-3144-491680-1022-uVL5zU/qb-request-pve2-data: Too many open files (24)

Code:

root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1096   12056   86127
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1096   12056   86127
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1096   12056   86127
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1097   12067   86207
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1098   12078   86287
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1100   12100   86447
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1104   12144   86767
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1104   12144   86767
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1104   12144   86767
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1104   12144   86767
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1104   12144   86767
root@proxmoxsm37:/var/log# ls -ltra  /proc/3144/fd/*  | wc
   1112   12232   87407
root@proxmoxsm37:/var/log# ps -ef -q 3144
UID          PID    PPID  C STIME TTY          TIME CMD
root        3144       1  2 Nov17 ?        00:42:26 /usr/bin/pmxcfs

Wir haben das Limit einmal hochgesetzt und wir sehen das es immer weiter steigt. Siehe Code Block oben.

Code:

root@proxmoxsm37:/var/log# pveversion

pve-manager/7.0-11/63d82f4e (running kernel: 5.4.78-2-pve)

Ich sehe das es ein Update vom corosync noch gibt, das werden wir am Wochenende mal einspielen.

Aber vlt kommt euch das verhalten ja bekannt vor und es hat wer einen Tipp.

Die Anzahl der pmxcfs auf den anderen beiden nodes sind bei ca. 35.

Lieben Gruß
Chris

Falk R. · Nov 18, 2021

Was für ein Monitoring nutzt du?
Ich kenne solche Fehler wenn Monitoringsysteme, entweder den Abfrageintervall zu kurz haben, oder Verbindungen nicht wieder schließen.

Chris Strauch · Nov 19, 2021

Wir nutzten checkmk fürs Monitoring.

Falk R. · Nov 19, 2021

Könntest du CheckMK mal pausieren? Tritt es dann immer noch auf?

Chris Strauch · Nov 19, 2021

Ich werde mal ein monitoring implementieren was mir die Verbindungen vom CheckMK zu den Cluster wegschreibt, würde ja dann sehen wenn die Anzahl der Verbindungen steigt. - Danke!

fabian · Nov 19, 2021

you can also bump the inotify limits (via sysctl)

Chris Strauch · Nov 19, 2021

Yes we bumped it, but on the code block above, they increses infinity until the server crash und reboot.

Chris Strauch · Nov 22, 2021

Nachdem wir uns lsof mal weggeschrieben haben regelmäßig, ist uns aufgefallen das der :

pve-ha-lrm ca. 994 mal spawned.

Jeder von diesen hat:

Code:

3230993 pve-ha-lrm      TOTAL   256
3231039 pve-ha-lrm      TOTAL   257
3231095 pve-ha-lrm      TOTAL   251
3231217 pve-ha-lrm      TOTAL   249
3234524 pve-ha-lrm      TOTAL   256
3234914 pve-ha-lrm      TOTAL   257

Open Files.

So wie ich das sehe, sollte der Dienst aber nur einmal laufen oder ?

fabian · Nov 22, 2021

der LRM startet worker (mittels fork, eigentlich max. max_workers viele), also mehr als ein prozess ist prinzipiell schon okay. tun sie denn noch was? haben sie alle denselben parent prozess?

Chris Strauch · Nov 22, 2021

Das kann ich leider nicht sagen, wir hatten nicht den Tree weggeschrieben sondern nur die einzelnen Prozesse.
Was halt aufgefallen ist, das vor einem crash die Open Files von ca. 500k auf ca. 700k drastisch angestiegen sind und er dann in den reboot ging, bei der suche der Ursache warum, ist uns der Prozess aufgefallen der diese knapp 1000 mal spawned mit je 250 file Handlings.

fabian · Nov 22, 2021

falls es nochmal auftritt waere es spannend den lrm log vom zeitraum vor bis inkl. anfang der "too many open files" meldungen zu sichern - vielleicht laesst sich daraus eruieren wo das problem liegt.

Chris Strauch · Nov 22, 2021

Kann ich gerne machen, wo finde ich das lrm Log ? In welches Log File schreibt er ?

fabian · Nov 22, 2021

journalctl -u pve-ha-lrm -u pve-ha-crm sollte schon einiges beinhalten

Chris Strauch · Nov 30, 2021

Hi Fabian,

nachdem wir die filehandlings pro Prozess verzehnfacht haben ist ein Server heute wieder gestorben.

Anbei mal das Log, jedoch scheint da nicht so viel drin zu stehen.

Gruß
Chris

fabian · Nov 30, 2021

okay das ist in der tat etwas wenig.. im zeitraum davor irgendwas auffaelliges? nachdem das problem ja scheinbar regelmaessig auftritt waere der naechste schritt wohl mal eine version mit mehr debug output zu installieren falls das fuer euch machbar ist..

Chris Strauch · Nov 30, 2021

Hi Fabian,

ich denke das können wir tun.
Anbei noch das Syslog kurz bevor er anfing Fehler zu werfen.

fabian · Nov 30, 2021

eine frage haett ich noch - rufen eure check_mk skripte ha-manager kommandos (oder die entsprechenden API endpoints) auf? wenn das problem das naechste mal auftritt waere vor neustart/killen der prozesse eventuell auch ein "ps faxl > processlist" und posten der (eventuell um VM details zensierten) datei 'processlist' spannend..

Chris Strauch · Nov 30, 2021

Wir haben keine custom Skripte für den checkmk laufen die irgendwelche Ha-manager Kommandos triggern.
Sehe in der Übersicht das per Default der checkmk nur abfragt ob es dem cluster perse gut geht. Also den pve-cluster state. Möglich das dies ein Api Kommando ist. Werde das ps mal im 5 Minuten Takt weg schreiben bis nochmal einer stirbt.

Chris Strauch · Dec 15, 2021

Hoi Fabian,

letzte Woche ist es wieder passiert auf einem der Nodes im Cluster.
Anbei mal die ps Liste. Hier sieht man auf jedenfall gut das es sehr sehr viele pve-ha-lrm Prozesse gibt.

Gruß
Chris

fabian · Dec 15, 2021

danke! schaut in der tat sehr merkwuerdig aus - der naechste schritt wird wohl sein an ein paar passenden stellen mehr debug output hinzuzufuegen um der ursache auf den grund zu gehen..

Crash - too many open files

Well-Known Member

Distinguished Member

Well-Known Member

Distinguished Member

Well-Known Member

Proxmox Staff Member

Well-Known Member

Well-Known Member

Proxmox Staff Member

Well-Known Member

Proxmox Staff Member

Well-Known Member

Proxmox Staff Member

Well-Known Member

Attachments

Proxmox Staff Member

Well-Known Member

Attachments

Proxmox Staff Member

Well-Known Member

Well-Known Member

Attachments

Proxmox Staff Member