Hey,
ähnliche Probleme hier.
Ich habe jetzt einiges an Zeit rein gesteckt das Problem einzugrenzen. Leider bin ich mir nicht sicher ob ihr das selbe Problem habt.
Um das zu Prüfen, achtet einfach mal nach einem Neustart auf euer IO delay von der Node.
Hier ist das Problem auf jeden Fall folgendes. Mit der Zeit steigt das IO delay immer weiter an. Das führt dann irgendwann dazu, dass nichts mehr erreichbar ist. Nur über IPMI oder eben direkt per Bildschirm kann man noch irgendwas mit der Maschine anfangen. Der Reboot dauert dann auch ewig.
Es lag nicht an VMs oder LXCs oder ähnlichem, sondern am pmxcfs. iotop zeig schön wie der disk write einfach immer höher steigt. Woran das liegt konnte ich leider noch nicht herausfinden, mit Kernel 5.15.116 passiert es auf jeden Fall nicht.
Auf anderen ähnlichen Nodes passiert das nicht. Wobei sich alle leicht unterscheiden.
Zum System mit den Problemen:
- es ist in einem Cluster aber andere Nodes in dem Cluster scheinen kein Problem zu haben
- iommu ist aktiviert, aber würde mich wundern, wenn das irgendwie mit dem Problem zusammenhängt
- die Boot-Partition ist ein ZFS pool
ähnliche Probleme hier.
Ich habe jetzt einiges an Zeit rein gesteckt das Problem einzugrenzen. Leider bin ich mir nicht sicher ob ihr das selbe Problem habt.
Um das zu Prüfen, achtet einfach mal nach einem Neustart auf euer IO delay von der Node.
Hier ist das Problem auf jeden Fall folgendes. Mit der Zeit steigt das IO delay immer weiter an. Das führt dann irgendwann dazu, dass nichts mehr erreichbar ist. Nur über IPMI oder eben direkt per Bildschirm kann man noch irgendwas mit der Maschine anfangen. Der Reboot dauert dann auch ewig.
Es lag nicht an VMs oder LXCs oder ähnlichem, sondern am pmxcfs. iotop zeig schön wie der disk write einfach immer höher steigt. Woran das liegt konnte ich leider noch nicht herausfinden, mit Kernel 5.15.116 passiert es auf jeden Fall nicht.
Auf anderen ähnlichen Nodes passiert das nicht. Wobei sich alle leicht unterscheiden.
Zum System mit den Problemen:
- es ist in einem Cluster aber andere Nodes in dem Cluster scheinen kein Problem zu haben
- iommu ist aktiviert, aber würde mich wundern, wenn das irgendwie mit dem Problem zusammenhängt
- die Boot-Partition ist ein ZFS pool