Rechner stürzt alle 12 Stunden ab

chralt

Member
Aug 26, 2020
37
2
13
66
Hallo Zusammen,

ich habe hier leider ein heftiges Problem, aber zuerst mal die Daten des Rechners um den es geht:
ein Intel-NUC mit SSD Samsung EVO 500-GB und 5 über USB 3.0-HUB angeschlossene HD Western-Digital (3x 6TB, 3X 3TB, 1X 1TB unterschiedliche Ser

Aktiv 24/7 an dem NUC sind eine 6TB und eine 3 TB die ohne Zugriff nach 10 Minuten einschlafen, die anderen Platten werden nachts per cron-Skript für das Backup angemeldet, und nach dem Backup (rsync) wieder abgemeldet.

Auf dem NUC laufen u. a. folgende Programme/Dienste:

Debian 10 Proxmox 6.2.1 Samba-Server Apache2 PHP7.3 Mariadb [URL='https://nextcloud.com/']Nextcloud[/URL] 18.0.6 minidlna Netzwerkdienste openssh openvpn


Bis auf Nextcloud die jeweils aktuellen Version aus dem Debian-Repository
Weiterhin gibt es einen RasPi 4 mit iobroker und CCU3 (Homematic).

So weit so gut.

Das Problem: der NUC stürzt 2x täglich ab und startet neu und zwar alle 12 Stunden. Der Haken ist der das beim Neustart nicht immer alle Laufwerke erkannt werden und dadurch der Rechner nicht komplett startet und zur Verfügung steht. Letzteres bedeutet das ich den Rechner manuell starten muß und während des Startprozesses das USB-Kabel für die HDs kurz (< 1 Sekunde) abziehen, sowie nach dann erfolgreichen Neustart die Laufwerke neu aus- und richtig einhängen muß, wobei sich 2 oder 3 Dieser HDs noch einmal separat „starten“ muß bevor der Rechner sie erkennt.

Wenn die Laufwerke wenigstens problemlos mit starten wäre das Problem deutlich kleiner, dann wäre er ein paar Minuten aus, so aber zumindest Nachts mehrere Stunden, Tagsüber auch, wenn ich es nicht schnell genug bemerke.

Meine Versuche den Grund für den Ausfall zu finden sind bisher kläglich gescheitert. Was ich festgestellt habe: vor dem Absturz steigt die CPU-Last auf 100% und der Rechner ist nicht mehr steuerbar. Das dauert 5 – 10 Minuten, dann startet der Rechner neu, Effekte siehe oben.

Ich babe per SSH von einem anderen Rechner „htop“ gestartet und konnte dadurch 2 Programme ermitteln die jeweils die CPU auf 100% getrieben haben:

kswap
clamav

„kswap“ hat dann 2 laufende Prozesse, clamav viele (>20)

Was ich gemacht habe: per cron den kswap nach dem Rechnerstart beendet und clamav („clamav-daemon“ und „clamav-freshclam“) per rcconf ausgeschaltet und gar nicht erst gestartet.
Trotzdem stürzt der Rechner ab, ich habe aber nach den Maßnahmen keinen weiteren „Störer“ ermitteln.

Was ich nicht mehr weiß ist ob das auch schon vor der Installation von Proxmox passiert ist.

Was noch passiert – das kapiere ich überhaupt nicht – auf dem RasPi stoppt die bei dem Absturz des NUC Fortschreibung über „history“ der iobroker Daten, der Raspi läuft aber weiter. Auch wenn der NUC mal sauber neu startet bleibt die Fortschreibung aus bis ich den iobroker Aufrufe.

Bin ziemlich ratlos und würde mich freuen wenn jemand helfen könnte.


Gruß
chralt
 
Hallo chralt,

Ich vermute es ist ein Hardware Problem, entweder ein Hitze oder Strom (zuviele Devices dran).

Ich würde mal lm_sensors installieren und gucken obs an der Hitze liegt, hab noch auf die schnelle das gefunden dazu:
https://askubuntu.com/questions/41794/how-to-monitor-log-server-hardware-temperatures-load

Wenns sonst am strom liegt, einfach ein paar geräte abstecken und schauen ob die NUC länger läuft.

Viel glück bei der Suche,

René
 
Moin, Was sagen die linux Logs.

clamav ist virenschutz Programm
kswap ist für den RAM.

Läuft dein Ram Voll?
 
Hallo René,

was mich irritiert und nicht an ein Hardwareproblem denken lässti ist die Tatsache das die Abstürze immer ziemlich genau alle 12 Stunden passieren. Außerdem hatte ich zeitweise einen dieser USB-Miefquirle (Venti) als zusätzliche Rechnerkühlung angeschlossen. Und aktuell ist die Sommerhitze ja vorbei und die Raumtemperatruren sind wieder im normalen Bereich.

Ich habe gestern Abend (eher heute Morgen) noch das Programm Monitorix "entdeckt-" und installiert, das scheint aber keine Temperatursensoren abzufragen - oder es ist noch nicht richtig eingestellt.

lm_sensors werde ich mir mal anschauen, vielen Dank schon mal für den Tip.
Aktuell bekomme ich noch die Meldung lm_sensors kann nicht gefunden werden, das denke ich wird aber kein errnsthaftes Problem sein.

Gruß
chralt
 
Hallo Zusammen,


Das liegt daran, dass das Programm lm-sensors heißt.
stimmt, habe ich mittlerweile auch gemerkt, es war auch bereits installiert. :cool:

clamav = Virenschutzprogramm: war mir schon klar.;)
kswap = für den RAM: Swap der nicht auf die Platte geschrieben wird im Ram?

Der Rechner ist vorhin wieder neu gestartet und zwar mit USB-Miefquirl, die Temperatur war 47°, wieder war es clamav was sich die komplette CPU und wohl auch den RAM belegt hat - aber warum?

lm-sensors gibt aktuell folgendes aus:
iwlwifi_1-virtual-0 Adapter: Virtual device temp1: +48.0°C acpitz-acpi-0 Adapter: ACPI interface temp1: +53.0°C (crit = +100.0°C) coretemp-isa-0000 Adapter: ISA adapter Package id 0: +53.0°C (high = +105.0°C, crit = +105.0°C) Core 0: +53.0°C (high = +105.0°C, crit = +105.0°C) Core 1: +53.0°C (high = +105.0°C, crit = +105.0°C) Core 2: +50.0°C (high = +105.0°C, crit = +105.0°C) Core 3: +50.0°C (high = +105.0°C, crit = +105.0°C)

Das oben genannte "Monitorix" hat auch einen Bereich für die Temperatur, der war deaktiviert ich habe ihn jetzt aktiviert. Leider zeigt es keine Temperatur an, der Bereich bleibt leer - da muß ih also noch suchen.

RAM: 16GB - aktuell werden von den 16GB gerade mal 1,65 GB genutzt (laut htop). laut "Monitorix" ist auch der Speicherbedarf vor dem Abbruch start akgestiegen:
speicherauslastung_NUC.jpgView attachment 19513

Die Aktivität der internen Festplatte ist auch stark geschieden:

plattenaktivität.png


Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225028] [ 29074] 33 29074 212231 122901 1646592 71347 0 clamscan
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225030] [ 29075] 33 29075 93371 53840 688128 19482 0 clamscan
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225033] [ 29076] 33 29076 596 146 40960 20 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225035] [ 29077] 33 29077 98875 44608 733184 34176 0 clamscan
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225037] [ 29079] 33 29079 596 146 45056 21 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225040] [ 29080] 33 29080 170494 104101 1310720 47066 0 clamscan
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225043] [ 29083] 33 29083 596 146 40960 21 0 sh
.....
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225177] [ 31251] 0 31251 596 1 40960 24 0 sessionclean
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225180] [ 31260] 1004 31260 1445 68 49152 0 0 timeout
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225182] [ 31261] 1004 31261 1743 418 53248 0 0 tsm
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225185] [ 31265] 1004 31265 1574767 9352 2506752 0 0 tsm
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225188] [ 31789] 0 31789 596 99 45056 22 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225191] [ 31791] 0 31791 10549 310 118784 79 0 smbstatus
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225193] [ 31792] 0 31792 2436 425 61440 18 0 cron
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225196] [ 31793] 0 31793 2436 383 61440 17 0 cron
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225198] [ 31812] 33 31812 596 162 45056 0 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225201] [ 31818] 0 31818 30309 549 253952 452 0 smbd
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225203] [ 31852] 33 31852 40402 5028 303104 0 0 php
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225206] [ 31867] 0 31867 2436 444 61440 18 0 cron
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225209] [ 31868] 0 31868 2436 446 61440 17 0 cron
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225211] [ 31874] 33 31874 596 163 40960 0 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225214] [ 31873] 33 31873 596 162 40960 0 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225216] [ 31878] 33 31878 40403 4686 303104 0 0 php
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225219] [ 31880] 33 31880 42485 7103 315392 0 0 php
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225222] [ 31899] 0 31899 9475 556 155648 86 0 systemd-journal
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225225] [ 31914] 0 31914 27008 522 147456 461 0 smbd
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225228] [ 32202] 0 32202 36923 1632 270336 288 0 php7.3
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225230] [ 32219] 33 32219 596 163 45056 0 0 sh
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225233] [ 32220] 33 32220 36196 1901 270336 0 0 php
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225236] [ 32222] 0 32222 3194 547 53248 83 0 sudo
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225238] [ 32283] 0 32283 2448 481 57344 11 0 su
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225241] [ 32296] 0 32296 1830 504 57344 17 0 bash
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225243] [ 32302] 0 32302 5072 770 73728 32 0 mc
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225246] [ 32310] 33 32310 4292 35 61440 1 0 php
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225248] [ 32312] 0 32312 2349 411 57344 18 0 cron
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225251] [ 32313] 0 32313 2436 470 61440 10 0 cron
Aug 30 14:51:09 ALTHOFFNS1 kernel: [18987.225253] [ 32314] 0 32314 2436 464 61440 11 0 cron
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225257] [ 32315] 0 32315 3250 98 53248 0 0 sshd
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225260] [ 32317] 0 32317 5950 70 61440 335 0 systemd-udevd
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225263] [ 32318] 0 32318 1126 28 45056 0 0 ip6tables-save
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225265] [ 32319] 33 32319 596 49 36864 0 0 sh
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225268] [ 32320] 33 32320 596 51 45056 0 0 sh
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225270] [ 32321] 33 32321 3843 34 57344 0 0 php
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225273] [ 32322] 33 32322 4292 77 61440 0 0 php
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225276] [ 32323] 0 32323 5950 173 61440 327 0 systemd-udevd
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.225279] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=/,mems_allowed=0,global_oom,task_memcg=/system.slice/cron.service,task=clamscan,pid=29098,uid=33
Aug 30 14:51:10 ALTHOFFNS1 kernel: [18987.313241] oom_reaper: reaped process 29098 (clamscan), now anon-rss:0kB, file-rss:0kB, shmem-rss:0kB
Aug 30 14:51:11 ALTHOFFNS1 mtp-probe: checking bus 1, device 23: "/sys/devices/pci0000:00/0000:00:15.0/usb1/1-4/1-4.2"
Aug 30 14:51:11 ALTHOFFNS1 mtp-probe: checking bus 1, device 24: "/sys/devices/pci0000:00/0000:00:15.0/usb1/1-4/1-4.3"
Aug 30 14:51:11 ALTHOFFNS1 mtp-probe: bus: 1, device: 23 was not an MTP device
Aug 30 14:51:11 ALTHOFFNS1 mtp-probe: bus: 1, device: 24 was not an MTP device
Aug 30 14:51:12 ALTHOFFNS1 mtp-probe: checking bus 1, device 24: "/sys/devices/pci0000:00/0000:00:15.0/usb1/1-4/1-4.3"
Aug 30 14:51:12 ALTHOFFNS1 mtp-probe: bus: 1, device: 24 was not an MTP device
Aug 30 14:51:12 ALTHOFFNS1 mtp-probe: checking bus 1, device 23: "/sys/devices/pci0000:00/0000:00:15.0/usb1/1-4/1-4.2"
Aug 30 14:51:12 ALTHOFFNS1 mtp-probe: bus: 1, device: 23 was not an MTP device
Aug 30 14:51:32 ALTHOFFNS1 NetworkManager[922]: <info> [1598791892.7153] device (wlp2s0): set-hw-addr: set MAC address to 8E:A4:90:D1:BE:47 (scanning)

Von den Zeilen for der Leerzeile gibt es noch einen Haufen mehr

Gruß
chralt
 
Hallo
ich hatte mal ein ähnliches Problem. RAM wurde voll und wollte SWAP file schreiben,
diese aber war nicht korrekt eingebunden/gemountet. Dann crashte es auch.
gruss
vinc
 
Hallo,

den Verdacht das clamav der Übeltäter ist hatte ich ja schon oben geäußert. Clamav läuft weil dem Rechner Nextcloud läuft und die Daten auf den angeschlossenen USB-Laufwerken liegen. und weil auch Windoewsnutzer ....

Die Frage ist nun, wie ich clamav bändigen kann bzw. was dazu geführt hat das es sich so verhält. Die Platten sind schon seit > Jahr an dem Rechner angeschlossen ohne das es diese Probleme gab.

Die Tatsache das die Abstürze ziemlich genau alle 12 Stunden waren hat mich dann aber verunsichert auch weil es auch mal ein Problem mit kswap gab.

'ne Swap-Partition ist natürlich vorhhanden und auch richtg eingebunden.

Gruß
chralt
 
Hi chralt,

systemctl stop *clamav*; systemctl disable *clamav* und gucken was passiert? Du hast schon geschrieben das du das gemacht hast aber so?

Liebe Grüße,
René
 
Hallo,

ja, hab' ich schon gemacht. Hat aber keine Besserung gebracht. Der einzige Unterschied ist der, das es keinen Prozess mehr gibt der in "Masse" auftritt und die ganze CPU-Zeit in Anspruch nimmt. Der Rechner schmiert aber trotzdem ab. Die Log-Dateien von heute habe ich mir noch nicht angeschaut (Urlaub ist vorbei).

Welche der gefühlt mehr als 100 Logs sollte ich - neben der messages - einer genaueren Betrachtung unterziehen?

Ich habe jetzt die Festplatten für die Backups abgehängt und in der fstab auskommentiert. Mir ist aber nicht klar warum die Zahl der Festplatten eine Rolle spielen solle. Es handelt sich auschließlich um externe USB-Platten von Western Digital, 3,5" mit eigener Stromversorgung. 2 sind "aktiv" im Betrieb, schlafen ein wenn sie nicht benötigt werden, die andern werden nur Nachts für die Backups eingebunden und nach den Backups wieder getrennt.

Gruß
chralt
 
Hallo,

der oben beschriebene Versuch hat leider nichts gebracht, das selbe Spiel wie immer.:mad:

Ein weiterer Versuch: den "Problemrechner" NUC abends abgeschaltet und geschaut was der raspi mit dem iokroker macht: auch da hat der iobroker mit abschalten des NUC die Speicherung der Daten (ibroker Adapter "History") abgebrochen und erst wieder eingeschaltet als ich den NUC wieder eingeschaltet habe. Der Raspi selber lief aber weiter, der iobroker auch. Es gab auf dem raspi ein paar sehr merkwürdige Vorgänge (mit Monitorix visualisert) aus dem Bereich Netzwerke.

Ich werde mich also jetzt erst mal dem Problem aus der Richtung ioboker* nähern.

Gruß
chralt
* dazu passt ja sehr gut das dort beim Aktualisieren auch erst mal 'was schiefgenganen ist. :eek::mad:
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!