Container friert ein

dejhost · Aug 1, 2021

Hallo!

Ich bin noch relativ neu in Sachen Proxmox.

Derzeit läuft Version 6-4-8 auf einem HP Elitedesk G4. Das nachfolgende Problem hatte ich aber auch auf dem gleichen Container als er noch auf einem Lenovo Thinkserver lief.

Ein container, in dem nginx läuft, friert mir alle paar Wochen ein. Zwar zeigt die Konsole im Web-interface mir "Connected" an, aber es bleibt schwarz. Kein Cursor, keine Reaktion. Auch die Funktion die der Container ausführen sollte (reverse proxy), wird nicht geleistet.

Wenn ich in Proxmox dann "reboot Container" klicke, passiert nichts. Ebenso "Stop Container". Was mir also bleibt ist den gesamten Server neuzustarten. Ich fahre also alle VM's herunter und dann drücke ich physisch den Power-knopf, oder ich nutze die "magic SysRq" option:

Code:

echo 1 > /proc/sys/kernel/sysrq
echo b > /proc/sysrq-trigger

Könnt ihr mir helfen, Ursache und Lösung zu finden?
Man dankt!

Dunuin · Aug 2, 2021

Das Syslog von Host und Gast hast du nach so einem einfrieren des LXCs vermutlich schon analysiert und nichts gefunden?

dejhost · Aug 8, 2021

Hallo Dunuin,
entschuldige die späte Antwort - ich bin in den Ferien und es ist nicht leicht, Zeit zu finden...

Aktuell friert der Container dauernd ein. Soeben habe ich zum erstenmal beobachtet, dass ich zwar noch Befehle eingeben kann, aber auf nginx-Befehle reagiert er nicht. Auch "Stop Container" funktioniert nicht.

Ich kopiere mal alles auffälligen Zeilen aus /var/lof/syslog. Der fragliche Container hat die Nummer 104.

Diese Zeilen sehe ich am laufenden Band:


Aug  8 09:58:00 proxmox03 systemd[1]: Started Proxmox VE replication runner.
Aug  8 09:59:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner...
Aug  8 09:59:00 proxmox03 systemd[1]: pvesr.service: Succeeded.

Ansonsten fällt auf:


Aug  8 13:17:48 proxmox03 kernel: [163444.192172] libceph: osd2 up
Aug  8 13:17:59 proxmox03 kernel: [163455.114029] libceph: osd3 up
Aug  8 13:17:59 proxmox03 kernel: [163455.114036] libceph: osd4 up

Aug  8 06:58:08 proxmox03 pvesr[702337]: trying to acquire cfs lock 'file-replication_cfg' ...
Aug  8 06:58:09 proxmox03 pvesr[702337]: cfs-lock 'file-replication_cfg' error: got lock request timeout
Aug  8 06:58:09 proxmox03 systemd[1]: pvesr.service: Main process exited, code=exited, status=17/n/a
Aug  8 06:58:09 proxmox03 systemd[1]: pvesr.service: Failed with result 'exit-code'.
Aug  8 06:58:09 proxmox03 systemd[1]: Failed to start Proxmox VE replication runner.
Aug  8 06:59:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner...
Aug  8 06:59:00 proxmox03 systemd[1]: pvesr.service: Succeeded.

Während ich versuche den container neuzustarten:

Aug  8 16:24:26 proxmox03 pvedaemon[1155]: worker 868707 started
Aug  8 16:24:49 proxmox03 pvedaemon[868841]: requesting reboot of CT 104: UPID:proxmox03:000D41E9:010A8484:610FE9$
Aug  8 16:24:49 proxmox03 pvedaemon[103482]: <root@pam> starting task UPID:proxmox03:000D41E9:010A8484:610FE931:v$
Aug  8 16:25:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner...
Aug  8 16:25:00 proxmox03 systemd[1]: pvesr.service: Succeeded.
Aug  8 16:25:00 proxmox03 systemd[1]: Started Proxmox VE replication runner.
Aug  8 16:25:48 proxmox03 systemd[1]: session-118.scope: Succeeded.
Aug  8 16:25:48 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:25:49 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:25:50 proxmox03 systemd[1]: Started Session 119 of user root.
Aug  8 16:25:57 proxmox03 pvedaemon[868707]: <root@pam> starting task UPID:proxmox03:000D4391:010A9F0C:610FE975:q$
Aug  8 16:25:57 proxmox03 pvedaemon[869265]: shutdown VM 107: UPID:proxmox03:000D4391:010A9F0C:610FE975:qmshutdow$
Aug  8 16:25:58 proxmox03 systemd[1]: session-119.scope: Succeeded.
Aug  8 16:25:58 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:25:59 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:25:59 proxmox03 systemd[1]: Started Session 120 of user root.
Aug  8 16:26:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner...
Aug  8 16:26:00 proxmox03 systemd[1]: pvesr.service: Succeeded.
Aug  8 16:26:00 proxmox03 systemd[1]: Started Proxmox VE replication runner.
Aug  8 16:26:00 proxmox03 systemd[1]: pvesr.service: Succeeded.
Aug  8 16:26:00 proxmox03 systemd[1]: Started Proxmox VE replication runner.
Aug  8 16:26:04 proxmox03 pvedaemon[868707]: <root@pam> starting task UPID:proxmox03:000D43D2:010AA206:610FE97C:q$
Aug  8 16:26:04 proxmox03 pvedaemon[869330]: shutdown VM 105: UPID:proxmox03:000D43D2:010AA206:610FE97C:qmshutdow$
Aug  8 16:26:07 proxmox03 systemd[1]: session-120.scope: Succeeded.
Aug  8 16:26:07 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:26:07 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:26:08 proxmox03 systemd[1]: Started Session 121 of user root.
Aug  8 16:26:10 proxmox03 QEMU[2468]: kvm: terminating on signal 15 from pid 652 (/usr/sbin/qmeventd)
Aug  8 16:26:10 proxmox03 kernel: [174746.755136] vmbr0: port 5(tap107i0) entered disabled state
Aug  8 16:26:11 proxmox03 kernel: [174746.951805] vmbr2: port 2(tap107i1) entered disabled state
Aug  8 16:26:11 proxmox03 systemd[1]: 107.scope: Succeeded.
Aug  8 16:26:11 proxmox03 qmeventd[645]: Starting cleanup for 107
Aug  8 16:26:11 proxmox03 qmeventd[645]: trying to acquire lock...
Aug  8 16:26:11 proxmox03 systemd[1]: session-121.scope: Succeeded.
Aug  8 16:26:11 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:26:12 proxmox03 qmeventd[645]:  OK
Aug  8 16:26:12 proxmox03 qmeventd[645]: Finished cleanup for 107
Aug  8 16:26:12 proxmox03 pvedaemon[868707]: <root@pam> end task UPID:proxmox03:000D4391:010A9F0C:610FE975:qmshut$
Aug  8 16:26:12 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:26:12 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:26:12 proxmox03 systemd[1]: Started Session 122 of user root.
Aug  8 16:26:27 proxmox03 pvedaemon[868841]: command 'lxc-stop -n 104' failed: received interrupt
Aug  8 16:26:32 proxmox03 pvedaemon[103482]: <root@pam> end task UPID:proxmox03:000D41E9:010A8484:610FE931:vzrebo$
Aug  8 16:26:41 proxmox03 pvedaemon[869576]: stopping CT 104: UPID:proxmox03:000D44C8:010AB03F:610FE9A1:vzstop:10$
Aug  8 16:26:41 proxmox03 pvedaemon[103482]: <root@pam> starting task UPID:proxmox03:000D44C8:010AB03F:610FE9A1:v$
Aug  8 16:26:41 proxmox03 pvedaemon[869576]: stopping CT 104: UPID:proxmox03:000D44C8:010AB03F:610FE9A1:vzstop:10$
Aug  8 16:26:41 proxmox03 pvedaemon[103482]: <root@pam> starting task UPID:proxmox03:000D44C8:010AB03F:610FE9A1:v$
Aug  8 16:26:51 proxmox03 systemd[1]: session-122.scope: Succeeded.
Aug  8 16:26:51 proxmox03 pmxcfs[895]: [status] notice: received log
Aug  8 16:27:00 proxmox03 systemd[1]: Starting Proxmox VE replication runner...
Aug  8 16:27:00 proxmox03 systemd[1]: pvesr.service: Succeeded.
Aug  8 16:27:00 proxmox03 systemd[1]: Started Proxmox VE replication runner.
Aug  8 16:27:04 proxmox03 pvedaemon[869330]: VM quit/powerdown failed - got timeout

Hilft das weiter?
Gruss und Dank!

dejhost · Aug 12, 2021

Hallo,

ich habe den Container auf einen anderen Server migriert - wo er leider auch wieder eingefroren ist. Hier Auszüge aus dem log:


Aug 10 00:16:47 proxmox02 ceph-osd[2213473]: 2021-08-10T00:16:47.819+0200 7f2df2d34700 -1 osd.4 4523 heartbe$
Aug 10 00:16:54 proxmox02 pve-ha-lrm[1569]: loop take too long (37 seconds)
Aug 10 00:16:54 proxmox02 pvestatd[1106]: got timeout

Aug 10 00:20:55 proxmox02 ceph-osd[2648069]: 2021-08-10T00:19:30.269+0200 7f175366b700 -1 osd.5 4523 heartbe$
Aug 10 00:20:55 proxmox02 ceph-osd[2648069]: *** Caught signal (Aborted) **
Aug 10 00:20:55 proxmox02 ceph-osd[2648069]:  in thread 7f173e641700 thread_name:tp_osd_tp
Aug 10 00:20:55 proxmox02 pve-ha-crm[1403]: loop take too long (80 seconds)
Aug 10 00:20:55 proxmox02 CRON[2655292]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)

Aug 10 00:20:55 proxmox02 ceph-osd[2561130]: 2021-08-10T00:20:55.898+0200 7f1951bd8700 -1 osd.2 4523 get_hea$
Aug 10 00:20:56 proxmox02 kernel: [613682.869706] libceph: osd5 (1)192.168.1.6:6823 socket closed (con state$
Aug 10 00:20:56 proxmox02 kernel: [613682.917434] libceph: osd5 (1)192.168.1.6:6823 socket closed (con state$
Aug 10 00:20:56 proxmox02 systemd[1]: ceph-osd@5.service: Main process exited, code=killed, status=6/ABRT
Aug 10 00:20:56 proxmox02 systemd[1]: ceph-osd@5.service: Failed with result 'signal'.
Aug 10 00:20:56 proxmox02 kernel: [613683.147705] libceph: osd4 down
Aug 10 00:20:56 proxmox02 kernel: [613683.147708] libceph: osd5 down

Aug 10 00:23:02 proxmox02 systemd[1]: Started Proxmox VE replication runner.
Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsiu$
Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_$
Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recov$
Aug 10 00:23:36 proxmox02 smartd[588]: Device: /dev/sde [SAT], SMART Usage Attribute: 194 Temperature_Celsiu$
Aug 10 00:24:00 proxmox02 systemd[1]: Starting Proxmox VE replication runner...
Aug 10 00:24:01 proxmox02 CRON[2656383]: (root) CMD ([ $(date +%w) -eq 0 ] && [ -x /usr/lib/zfs-linux/scrub $
Aug 10 00:24:02 proxmox02 systemd[1]: pvesr.service: Succeeded.
Aug 10 00:24:02 proxmox02 systemd[1]: Started Proxmox VE replication runner.
Aug 10 00:25:00 proxmox02 systemd[1]: Starting Proxmox VE replication runner...

Aug 10 09:22:11 proxmox02 systemd[1]: Started Ceph object storage daemon osd.5.
Aug 10 09:22:11 proxmox02 systemd[1]: ceph-osd@2.service: Service RestartSec=10s expired, scheduling restart.
Aug 10 09:22:11 proxmox02 systemd[1]: ceph-osd@2.service: Scheduled restart job, restart counter is at 14.
Aug 10 09:22:11 proxmox02 systemd[1]: Stopped Ceph object storage daemon osd.2.
Aug 10 09:22:11 proxmox02 systemd[1]: Starting Ceph object storage daemon osd.2...
Aug 10 09:22:11 proxmox02 systemd[1]: Started Ceph object storage daemon osd.2.
Aug 10 09:22:12 proxmox02 systemd[1]: ceph-osd@3.service: Service RestartSec=10s expired, scheduling restart.
Aug 10 09:22:12 proxmox02 systemd[1]: ceph-osd@3.service: Scheduled restart job, restart counter is at 11.
Aug 10 09:22:12 proxmox02 systemd[1]: Stopped Ceph object storage daemon osd.3.
Aug 10 09:22:12 proxmox02 systemd[1]: Starting Ceph object storage daemon osd.3...
Aug 10 09:22:12 proxmox02 systemd[1]: Started Ceph object storage daemon osd.3.
Aug 10 09:23:00 proxmox02 systemd[1]: Starting Proxmox VE replication runner...
Aug 10 09:23:01 proxmox02 systemd[1]: pvesr.service: Succeeded.
Aug 10 09:23:01 proxmox02 systemd[1]: Started Proxmox VE replication runner.
Aug 10 09:23:07 proxmox02 ceph-osd[2786966]: 2021-08-10T09:23:07.776+0200 7f116a838e00 -1 osd.2 4635 log_to_$
Aug 10 09:23:07 proxmox02 ceph-osd[2786966]: 2021-08-10T09:23:07.884+0200 7f1163d38700 -1 osd.2 4635 set_num$
Aug 10 09:23:11 proxmox02 ceph-osd[2786934]: 2021-08-10T09:23:11.356+0200 7f0eb2fd4e00 -1 osd.5 4635 log_to_$
Aug 10 09:23:12 proxmox02 ceph-osd[2786934]: 2021-08-10T09:23:12.304+0200 7f0eac4d4700 -1 osd.5 4635 set_num$
Aug 10 09:23:12 proxmox02 kernel: [646220.708171] libceph: osd2 up

Aug 10 09:53:36 proxmox02 smartd[588]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsiu$
$Celsius changed from 124 to 122

dejhost · Aug 16, 2021

Niemand, der mir einen Tipp geben kann, wie ich der Sache auf den Grund gehen kann?

mle · Aug 17, 2021

Kann leider anhand des logs auch nicht helfen.

Ich würde aber mal ein Backup erstellen und auf Proxmox v7.0-11 wechseln.

Das Template von Container neu herunterladen (gegebenenfalls mal wechseln auf einen anderes System)
und einrichten dann die benötigten Pakete neu installieren.

Gegebenenfalls die Configs wieder anpassen oder aus dem Backup übertragen.

Wenn sich ein LXC Container nicht mehr stoppen lässt könnte das auch auf einen defekten RAM oder Speicher hinweisen. (muss nicht)

dejhost · Aug 17, 2021

Könnte letzteres folgende Einträge im log verursachen?

Allerdings hatte ich den container ja auf andere Hardware migriert...und auf beiden servern die gleichen symptome gehabt.

dejhost · Aug 21, 2021

Das Problem besteht auf Proxmox v7.0-11...
Ein defekter RAM ist als Ursache eher unwahrscheinlich, weil es auf beiden Servern auftritt.

dejhost · Aug 24, 2021

Es scheint, als würde der Container ceph nicht leiden können. Ich lasse den Container jetzt auf einer lokalen festplatte laufen, und nun gibt es seit 48 Stunden keine Probleme mehr.

Search

Search

Container friert ein

dejhost

Member

Dunuin

Distinguished Member

dejhost

Member

dejhost

Member

dejhost

Member

mle

Member

dejhost

Member

dejhost

Member

dejhost

Member