LXC-Container hören auf zu funktionieren

Der_Anfänger

New Member
Jun 3, 2024
10
0
1
Hallo Gemeinde

Heute Nacht ist es bereits zum zweiten mal passiert, dass ein LXC-Container "abgeraucht" ist.
Vor etwa zwei Wochen hatte plötzlich mitten in der Nacht (alles hat geschlafen) das per Helper-Script (https://tteck.github.io/Proxmox/?id=Pi-Hole#pi-hole-lxc) installiere PiHole aufgehört, zu funktionieren. Einfach so.
Es war weder über die Web-Oberfläche erreichbar, noch ließ es sich über die Konsole reaktivieren. Da gab es nur massenhaft Fehlermeldungen.
Ich habe dann einen Ubuntu-Server in einer VM installiert und PiHole dort per Hand aufgesetzt.

Und heute Nacht hat es HomeAssistant, ebenfalls per Helper-Script installiert, erwischt.
Es war heute morgen auch nicht mehr über die Web-Oberfläche erreichbar. Auch nach mehreren Neustarts des LXC-Containers nicht. Auf der PVE-Konsole habe ich versucht, mich einzuloggen. Das ging aber irgendwie nicht. HaOS ist hier schon ein wenig speziell. Davon hab ich leider wenig Ahnung.
Ich habe jetzt ein zwei Wochen altes PVE-Backup und das HA-Samba-Backup von heute Nacht wieder "gerestored". Jetzt geht es wieder.
An den im HA aufgzeichneten Graphen hab ich gesehen, dass der "Todeskampf" bereits um ca. 19:30 angefangen hat. Denn ab diesem Zeitpunkt haben die Datenaufzeichnungen sukzessive aufgehört. Und am 23:30 Uhr wurde gar nichts mehr aufgezeichnet.
An Speicherplatzmangel dürfte es nicht gelegen sein. Ein df -h in der Konsole zeigt überall maximal 32%Use. Als 68% Free Space.

Meine Frage nun an Euch:
Gibt es hier tatsächlich, wie von mir vermutet, einen Zusammenhang mit der Installationsmethode "Helper-Script"?
Oder hat jemand eine andere Erklärung dafür?
 
Hallo
Zu 1: Lenovo ThinkCentre, NVME-SSD für System (incl. VM´s), 750 GB HDD für Daten, 8 GB Arbeitsspeicher, 65 Watt Netzteil. Stromverbrauch laut Messegerät zwischen 10 und 20 Watt. Uptime ca. 37 Tage.
Zu 2: PVE 8.2.4, vor ein paar Tagen geupdatet, FS ext4,
Der HomeAssistant wurde mittels diesem Script installiert:
bash -c "$(wget -qLO - https://github.com/tteck/Proxmox/raw/main/vm/haos-vm.sh)"
Ich gehe davon aus, das es sich hierbei um ein Debian-System handelt. Dateisystem? Kann ich leider bei diesem HA OS nicht rauslesen.
Zu 3: IP-Adresse wird von FritzBox per DHCP zugewiesen (immer dieselbe). 10.1.1.24.
zu 4: Temperaturüberwachung hab ich nicht. Handelt sich um ein Lenovo ThinkCentre.
Zu 5: USV hab ich nicht.

Hier ein Auszug aus dem PVE-Log in dem fraglichen Zeitraum.:

Jul 05 18:17:01 pve CRON[311757]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jul 05 18:17:01 pve CRON[311758]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jul 05 18:17:01 pve CRON[311757]: pam_unix(cron:session): session closed for user root
Jul 05 19:00:56 pve chronyd[793]: Selected source 23.88.7.139 (2.debian.pool.ntp.org)
Jul 05 19:17:01 pve CRON[324504]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jul 05 19:17:01 pve CRON[324506]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jul 05 19:17:01 pve CRON[324504]: pam_unix(cron:session): session closed for user root
Jul 05 20:17:01 pve CRON[337247]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jul 05 20:17:01 pve CRON[337248]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jul 05 20:17:01 pve CRON[337247]: pam_unix(cron:session): session closed for user root
Jul 05 21:17:01 pve CRON[349972]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jul 05 21:17:01 pve CRON[349973]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jul 05 21:17:01 pve CRON[349972]: pam_unix(cron:session): session closed for user root
Jul 05 21:57:56 pve smartd[656]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 112 to 111
Jul 05 22:17:01 pve CRON[362617]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jul 05 22:17:01 pve CRON[362618]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jul 05 22:17:01 pve CRON[362617]: pam_unix(cron:session): session closed for user root
Jul 05 23:08:36 pve systemd[1]: Starting apt-daily.service - Daily apt download activities...
Jul 05 23:08:36 pve systemd[1]: apt-daily.service: Deactivated successfully.
Jul 05 23:08:36 pve systemd[1]: Finished apt-daily.service - Daily apt download activities.
Jul 05 23:17:01 pve CRON[375598]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Jul 05 23:17:01 pve CRON[375599]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Jul 05 23:17:01 pve CRON[375598]: pam_unix(cron:session): session closed for user root
Jul 06 00:00:05 pve systemd[1]: Starting dpkg-db-backup.service - Daily dpkg database backup service...

Daten von der defekten VM hab ich bereits ins Nirvana geschickt (gelöscht).
Alle vier weiteren VM´s sind heute morgen fehlerlos gelaufen.

Ist leider nicht viel. Vielleicht hilft´s?
 
Ein df -h in der Konsole zeigt überall maximal 32%Use. Als 68% Free Space.
Das zeigt dir aber nur wie voll dein Root-Dateisystem ist. VMs/LXCs liegen üblicherweise auf einem LVM-Thin oder ZFS Pool und die können trotzdem voll sein. Da musst du regelmäßig mit lvs oder zfs list -o space überprüfen, dass das NIE voll wird. Oder besser noch ein Monitoring mit Notifications aufsetzen.
 
Mit Lenovo ThinkCentre kann ich nichts anfangen, evtl. solltest Du auch die NVMe, SSD u. HDD vom Namen nennen.
Evtl. sind die Smart-Daten davon auffällig, smartctl -a <device-name> zeigt diese an.
Hallo
Es handelt sich bei einem ThinkCentre um eine Mini-PC.
Hier ein Beispiel: https://www.thinkstore24.de/pc-work...0t-16gb-ram-256gb-ssd-hdmi-displayp-ohne-wlan.
Die Smart-Werte der System-Nvme-SSD sowie der Daten-HDD zeigen keine Auffälligkeiten (haben auch erst um die 1000 Stunden auf dem Buckel).

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 35 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 1,267,945 [649 GB]
Data Units Written: 1,395,436 [714 GB]
Host Read Commands: 14,725,410
Host Write Commands: 50,597,815
Controller Busy Time: 5,171
Power Cycles: 36
Power On Hours: 1,025
Unsafe Shutdowns: 4
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged


lvs sagt das hier:
root@pve:~# lvs
LV VG Attr LSize Pool Origin Data% Meta% Move Log Cpy%Sync Convert
data pve twi-aotz-- 141.48g 13.33 1.57
root pve -wi-ao---- 69.45g
swap pve -wi-ao---- <7.65g
vm-100-disk-0 pve Vwi-aotz-- 4.00m data 0.00
vm-100-disk-1 pve Vwi-aotz-- 32.00g data 26.80
vm-102-disk-0 pve Vwi-aotz-- 15.00g data 43.87
vm-103-disk-0 pve Vwi-aotz-- 8.00g data 32.08
vm-104-disk-0 pve Vwi-aotz-- 10.00g data 11.34
root@pve:~#

Das sieht jetzt auch nicht dramatisch aus.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!