Container friert ein

dejhost

Active Member
Dec 13, 2020
64
1
28
45
Hallo!

Ich bin noch relativ neu in Sachen Proxmox.

Derzeit läuft Version 6-4-8 auf einem HP Elitedesk G4. Das nachfolgende Problem hatte ich aber auch auf dem gleichen Container als er noch auf einem Lenovo Thinkserver lief.

Ein container, in dem nginx läuft, friert mir alle paar Wochen ein. Zwar zeigt die Konsole im Web-interface mir "Connected" an, aber es bleibt schwarz. Kein Cursor, keine Reaktion. Auch die Funktion die der Container ausführen sollte (reverse proxy), wird nicht geleistet.

Wenn ich in Proxmox dann "reboot Container" klicke, passiert nichts. Ebenso "Stop Container". Was mir also bleibt ist den gesamten Server neuzustarten. Ich fahre also alle VM's herunter und dann drücke ich physisch den Power-knopf, oder ich nutze die "magic SysRq" option:

Code:
echo 1 > /proc/sys/kernel/sysrq
echo b > /proc/sysrq-trigger

Könnt ihr mir helfen, Ursache und Lösung zu finden?
Man dankt!
 
Das Syslog von Host und Gast hast du nach so einem einfrieren des LXCs vermutlich schon analysiert und nichts gefunden?
 
Hallo Dunuin,
entschuldige die späte Antwort - ich bin in den Ferien und es ist nicht leicht, Zeit zu finden...

Aktuell friert der Container dauernd ein. Soeben habe ich zum erstenmal beobachtet, dass ich zwar noch Befehle eingeben kann, aber auf nginx-Befehle reagiert er nicht. Auch "Stop Container" funktioniert nicht.

Ich kopiere mal alles auffälligen Zeilen aus /var/lof/syslog. Der fragliche Container hat die Nummer 104.

Diese Zeilen sehe ich am laufenden Band:
Aug 8 09:58:00 proxmox03 systemd[1]: Started Proxmox VE replication runner. Aug 8 09:59:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner... Aug 8 09:59:00 proxmox03 systemd[1]: pvesr.service: Succeeded.

Ansonsten fällt auf:
Aug 8 13:17:48 proxmox03 kernel: [163444.192172] libceph: osd2 up Aug 8 13:17:59 proxmox03 kernel: [163455.114029] libceph: osd3 up Aug 8 13:17:59 proxmox03 kernel: [163455.114036] libceph: osd4 up Aug 8 06:58:08 proxmox03 pvesr[702337]: trying to acquire cfs lock 'file-replication_cfg' ... Aug 8 06:58:09 proxmox03 pvesr[702337]: cfs-lock 'file-replication_cfg' error: got lock request timeout Aug 8 06:58:09 proxmox03 systemd[1]: pvesr.service: Main process exited, code=exited, status=17/n/a Aug 8 06:58:09 proxmox03 systemd[1]: pvesr.service: Failed with result 'exit-code'. Aug 8 06:58:09 proxmox03 systemd[1]: Failed to start Proxmox VE replication runner. Aug 8 06:59:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner... Aug 8 06:59:00 proxmox03 systemd[1]: pvesr.service: Succeeded.

Während ich versuche den container neuzustarten:
Aug 8 16:24:26 proxmox03 pvedaemon[1155]: worker 868707 started Aug 8 16:24:49 proxmox03 pvedaemon[868841]: requesting reboot of CT 104: UPID:proxmox03:000D41E9:010A8484:610FE9$ Aug 8 16:24:49 proxmox03 pvedaemon[103482]: <root@pam> starting task UPID:proxmox03:000D41E9:010A8484:610FE931:v$ Aug 8 16:25:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner... Aug 8 16:25:00 proxmox03 systemd[1]: pvesr.service: Succeeded. Aug 8 16:25:00 proxmox03 systemd[1]: Started Proxmox VE replication runner. Aug 8 16:25:48 proxmox03 systemd[1]: session-118.scope: Succeeded. Aug 8 16:25:48 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:25:49 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:25:50 proxmox03 systemd[1]: Started Session 119 of user root. Aug 8 16:25:57 proxmox03 pvedaemon[868707]: <root@pam> starting task UPID:proxmox03:000D4391:010A9F0C:610FE975:q$ Aug 8 16:25:57 proxmox03 pvedaemon[869265]: shutdown VM 107: UPID:proxmox03:000D4391:010A9F0C:610FE975:qmshutdow$ Aug 8 16:25:58 proxmox03 systemd[1]: session-119.scope: Succeeded. Aug 8 16:25:58 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:25:59 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:25:59 proxmox03 systemd[1]: Started Session 120 of user root. Aug 8 16:26:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner... Aug 8 16:26:00 proxmox03 systemd[1]: pvesr.service: Succeeded. Aug 8 16:26:00 proxmox03 systemd[1]: Started Proxmox VE replication runner. Aug 8 16:26:00 proxmox03 systemd[1]: pvesr.service: Succeeded. Aug 8 16:26:00 proxmox03 systemd[1]: Started Proxmox VE replication runner. Aug 8 16:26:04 proxmox03 pvedaemon[868707]: <root@pam> starting task UPID:proxmox03:000D43D2:010AA206:610FE97C:q$ Aug 8 16:26:04 proxmox03 pvedaemon[869330]: shutdown VM 105: UPID:proxmox03:000D43D2:010AA206:610FE97C:qmshutdow$ Aug 8 16:26:07 proxmox03 systemd[1]: session-120.scope: Succeeded. Aug 8 16:26:07 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:26:07 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:26:08 proxmox03 systemd[1]: Started Session 121 of user root. Aug 8 16:26:10 proxmox03 QEMU[2468]: kvm: terminating on signal 15 from pid 652 (/usr/sbin/qmeventd) Aug 8 16:26:10 proxmox03 kernel: [174746.755136] vmbr0: port 5(tap107i0) entered disabled state Aug 8 16:26:11 proxmox03 kernel: [174746.951805] vmbr2: port 2(tap107i1) entered disabled state Aug 8 16:26:11 proxmox03 systemd[1]: 107.scope: Succeeded. Aug 8 16:26:11 proxmox03 qmeventd[645]: Starting cleanup for 107 Aug 8 16:26:11 proxmox03 qmeventd[645]: trying to acquire lock... Aug 8 16:26:11 proxmox03 systemd[1]: session-121.scope: Succeeded. Aug 8 16:26:11 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:26:12 proxmox03 qmeventd[645]: OK Aug 8 16:26:12 proxmox03 qmeventd[645]: Finished cleanup for 107 Aug 8 16:26:12 proxmox03 pvedaemon[868707]: <root@pam> end task UPID:proxmox03:000D4391:010A9F0C:610FE975:qmshut$ Aug 8 16:26:12 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:26:12 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:26:12 proxmox03 systemd[1]: Started Session 122 of user root. Aug 8 16:26:27 proxmox03 pvedaemon[868841]: command 'lxc-stop -n 104' failed: received interrupt Aug 8 16:26:32 proxmox03 pvedaemon[103482]: <root@pam> end task UPID:proxmox03:000D41E9:010A8484:610FE931:vzrebo$ Aug 8 16:26:41 proxmox03 pvedaemon[869576]: stopping CT 104: UPID:proxmox03:000D44C8:010AB03F:610FE9A1:vzstop:10$ Aug 8 16:26:41 proxmox03 pvedaemon[103482]: <root@pam> starting task UPID:proxmox03:000D44C8:010AB03F:610FE9A1:v$ Aug 8 16:26:41 proxmox03 pvedaemon[869576]: stopping CT 104: UPID:proxmox03:000D44C8:010AB03F:610FE9A1:vzstop:10$ Aug 8 16:26:41 proxmox03 pvedaemon[103482]: <root@pam> starting task UPID:proxmox03:000D44C8:010AB03F:610FE9A1:v$ Aug 8 16:26:51 proxmox03 systemd[1]: session-122.scope: Succeeded. Aug 8 16:26:51 proxmox03 pmxcfs[895]: [status] notice: received log Aug 8 16:27:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner... Aug 8 16:27:00 proxmox03 systemd[1]: pvesr.service: Succeeded. Aug 8 16:27:00 proxmox03 systemd[1]: Started Proxmox VE replication runner. Aug 8 16:27:04 proxmox03 pvedaemon[869330]: VM quit/powerdown failed - got timeout


Hilft das weiter?
Gruss und Dank!
 
Hallo,

ich habe den Container auf einen anderen Server migriert - wo er leider auch wieder eingefroren ist. Hier Auszüge aus dem log:
Aug 10 00:16:47 proxmox02 ceph-osd[2213473]: 2021-08-10T00:16:47.819+0200 7f2df2d34700 -1 osd.4 4523 heartbe$ Aug 10 00:16:54 proxmox02 pve-ha-lrm[1569]: loop take too long (37 seconds) Aug 10 00:16:54 proxmox02 pvestatd[1106]: got timeout Aug 10 00:20:55 proxmox02 ceph-osd[2648069]: 2021-08-10T00:19:30.269+0200 7f175366b700 -1 osd.5 4523 heartbe$ Aug 10 00:20:55 proxmox02 ceph-osd[2648069]: *** Caught signal (Aborted) ** Aug 10 00:20:55 proxmox02 ceph-osd[2648069]: in thread 7f173e641700 thread_name:tp_osd_tp Aug 10 00:20:55 proxmox02 pve-ha-crm[1403]: loop take too long (80 seconds) Aug 10 00:20:55 proxmox02 CRON[2655292]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Aug 10 00:20:55 proxmox02 ceph-osd[2561130]: 2021-08-10T00:20:55.898+0200 7f1951bd8700 -1 osd.2 4523 get_hea$ Aug 10 00:20:56 proxmox02 kernel: [613682.869706] libceph: osd5 (1)192.168.1.6:6823 socket closed (con state$ Aug 10 00:20:56 proxmox02 kernel: [613682.917434] libceph: osd5 (1)192.168.1.6:6823 socket closed (con state$ Aug 10 00:20:56 proxmox02 systemd[1]: ceph-osd@5.service: Main process exited, code=killed, status=6/ABRT Aug 10 00:20:56 proxmox02 systemd[1]: ceph-osd@5.service: Failed with result 'signal'. Aug 10 00:20:56 proxmox02 kernel: [613683.147705] libceph: osd4 down Aug 10 00:20:56 proxmox02 kernel: [613683.147708] libceph: osd5 down Aug 10 00:23:02 proxmox02 systemd[1]: Started Proxmox VE replication runner. Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsiu$ Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_$ Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recov$ Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sde [SAT], SMART Usage Attribute: 194 Temperature_Celsiu$ Aug 10 00:24:00 proxmox02 systemd[1]: Starting Proxmox VE replication runner... Aug 10 00:24:01 proxmox02 CRON[2656383]: (root) CMD ([ $(date +%w) -eq 0 ] && [ -x /usr/lib/zfs-linux/scrub $ Aug 10 00:24:02 proxmox02 systemd[1]: pvesr.service: Succeeded. Aug 10 00:24:02 proxmox02 systemd[1]: Started Proxmox VE replication runner. Aug 10 00:25:00 proxmox02 systemd[1]: Starting Proxmox VE replication runner... Aug 10 09:22:11 proxmox02 systemd[1]: Started Ceph object storage daemon osd.5. Aug 10 09:22:11 proxmox02 systemd[1]: ceph-osd@2.service: Service RestartSec=10s expired, scheduling restart. Aug 10 09:22:11 proxmox02 systemd[1]: ceph-osd@2.service: Scheduled restart job, restart counter is at 14. Aug 10 09:22:11 proxmox02 systemd[1]: Stopped Ceph object storage daemon osd.2. Aug 10 09:22:11 proxmox02 systemd[1]: Starting Ceph object storage daemon osd.2... Aug 10 09:22:11 proxmox02 systemd[1]: Started Ceph object storage daemon osd.2. Aug 10 09:22:12 proxmox02 systemd[1]: ceph-osd@3.service: Service RestartSec=10s expired, scheduling restart. Aug 10 09:22:12 proxmox02 systemd[1]: ceph-osd@3.service: Scheduled restart job, restart counter is at 11. Aug 10 09:22:12 proxmox02 systemd[1]: Stopped Ceph object storage daemon osd.3. Aug 10 09:22:12 proxmox02 systemd[1]: Starting Ceph object storage daemon osd.3... Aug 10 09:22:12 proxmox02 systemd[1]: Started Ceph object storage daemon osd.3. Aug 10 09:23:00 proxmox02 systemd[1]: Starting Proxmox VE replication runner... Aug 10 09:23:01 proxmox02 systemd[1]: pvesr.service: Succeeded. Aug 10 09:23:01 proxmox02 systemd[1]: Started Proxmox VE replication runner. Aug 10 09:23:07 proxmox02 ceph-osd[2786966]: 2021-08-10T09:23:07.776+0200 7f116a838e00 -1 osd.2 4635 log_to_$ Aug 10 09:23:07 proxmox02 ceph-osd[2786966]: 2021-08-10T09:23:07.884+0200 7f1163d38700 -1 osd.2 4635 set_num$ Aug 10 09:23:11 proxmox02 ceph-osd[2786934]: 2021-08-10T09:23:11.356+0200 7f0eb2fd4e00 -1 osd.5 4635 log_to_$ Aug 10 09:23:12 proxmox02 ceph-osd[2786934]: 2021-08-10T09:23:12.304+0200 7f0eac4d4700 -1 osd.5 4635 set_num$ Aug 10 09:23:12 proxmox02 kernel: [646220.708171] libceph: osd2 up Aug 10 09:53:36 proxmox02 smartd[588]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsiu$ $Celsius changed from 124 to 122
 
Niemand, der mir einen Tipp geben kann, wie ich der Sache auf den Grund gehen kann?
 
Kann leider anhand des logs auch nicht helfen.

Ich würde aber mal ein Backup erstellen und auf Proxmox v7.0-11 wechseln.

Das Template von Container neu herunterladen (gegebenenfalls mal wechseln auf einen anderes System)
und einrichten dann die benötigten Pakete neu installieren.

Gegebenenfalls die Configs wieder anpassen oder aus dem Backup übertragen.

Wenn sich ein LXC Container nicht mehr stoppen lässt könnte das auch auf einen defekten RAM oder Speicher hinweisen. (muss nicht)
 
Könnte letzteres folgende Einträge im log verursachen?
IMG_20210817_141342_472.jpg
Allerdings hatte ich den container ja auf andere Hardware migriert...und auf beiden servern die gleichen symptome gehabt.
 
Das Problem besteht auf Proxmox v7.0-11...
Ein defekter RAM ist als Ursache eher unwahrscheinlich, weil es auf beiden Servern auftritt.
 
Es scheint, als würde der Container ceph nicht leiden können. Ich lasse den Container jetzt auf einer lokalen festplatte laufen, und nun gibt es seit 48 Stunden keine Probleme mehr.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!