Server crasht immer wieder

jochenmehlich · Dec 18, 2020

Mittlerweile - die Nerven liegen schon blank - jabe ich einen Fehler aus den Logdateien ausfindig machen können, weiß aber leider nicht was ich machen soll:

Dec 18 12:29:01 hostserver-1 systemd[1]: Started Proxmox VE replication runner.
Dec 18 12:30:00 hostserver-1 systemd[1]: Starting Proxmox VE replication runner...
Dec 18 12:30:00 hostserver-1 systemd[1]: pvesr.service: Succeeded.
Dec 18 12:30:00 hostserver-1 systemd[1]: Started Proxmox VE replication runner.
Dec 18 12:31:00 hostserver-1 systemd[1]: Starting Proxmox VE replication runner...
Dec 18 12:31:00 hostserver-1 systemd[1]: pvesr.service: Succeeded.
Dec 18 12:31:00 hostserver-1 systemd[1]: Started Proxmox VE replication runner.
Dec 18 14:08:19 hostserver-1 systemd-modules-load[347]: Inserted module 'iscsi_tcp'
Dec 18 14:08:19 hostserver-1 systemd[1]: Starting Flush Journal to Persistent Storage...
Dec 18 14:08:19 hostserver-1 systemd[1]: Started Monitoring of LVM2 mirrors, snapshots etc. using dmeventd or progress polling.
Dec 18 14:08:19 hostserver-1 systemd[1]: Started Create System Users.
Dec 18 14:08:19 hostserver-1 systemd[1]: Starting Create Static Device Nodes in /dev...
Dec 18 14:08:19 hostserver-1 pvefw-logger[536]: starting pvefw logger
Dec 18 14:08:19 hostserver-1 systemd[1]: Started udev Coldplug all Devices.
Dec 18 14:08:19 hostserver-1 systemd[1]: Starting Helper to synchronize boot up for ifupdown...
Dec 18 14:08:19 hostserver-1 systemd-modules-load[347]: Inserted module 'ib_iser'
Dec 18 14:08:19 hostserver-1 systemd-tmpfiles[375]: [/usr/lib/tmpfiles.d/fail2ban-tmpfiles.conf:1] Line references path below legacy directory /var/run/, updating /var/run/fail2ban → /run/fail2ban; please update the tmpfiles.d/ drop-in file accordingly.

Dec 18 14:08:19 hostserver-1 systemd-tmpfiles[375]: [/usr/lib/tmpfiles.d/fail2ban-tmpfiles.conf:1] Line references path below legacy directory /var/run/, updating /var/run/fail2ban → /run/fail2ban; please update the tmpfiles.d/ drop-in file accordingly.

Ein direkter Grund steht also nicht drin und ich hoffe dass es diese Meldung von fail2ban ist, wüsste sonst noch jemand, wo ich nachschauen (log) könnte?
Über jede Hilfe wäre ich sehr dankbar.

oguz · Dec 21, 2020

hi,

diese fehlermeldung von fail2ban hat wahrscheinlich nichts mit dem crash zu tun.

was meinst du mit "immer wieder"? ist das jeden tag, oder jede woche?

jochenmehlich said:
Ein direkter Grund steht also nicht drin und ich hoffe dass es diese Meldung von fail2ban ist, wüsste sonst noch jemand, wo ich nachschauen (log) könnte?

mkdir -p /var/log/journal ausfuehren, damit du journals von boots sammeln kannst.

journalctl, syslog, dmesg koennen hilfreich sein.

bitte auch deine pveversion -v posten.

jochenmehlich · Dec 21, 2020

oguz said:
was meinst du mit "immer wieder"? ist das jeden tag, oder jede woche?

Er crasht in unterschiedlichen intervallen, maximal 10 Tage, meistens nach so 6-7 Tage, hatte aber auch schon Tage, da ist er jeden zweiten Tag gecrasht. Faktoren unabhängig.

proxmox-ve: 6.2-1 (running kernel: 5.4.60-1-pve)
pve-manager: 6.2-11 (running version: 6.2-11/22fb4983)
pve-kernel-5.4: 6.2-6
pve-kernel-helper: 6.2-6
pve-kernel-5.4.60-1-pve: 5.4.60-2
ceph: 14.2.11-pve1
ceph-fuse: 14.2.11-pve1
corosync: 3.0.4-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: residual config
ifupdown2: 3.0.0-1+pve2
libjs-extjs: 6.0.1-10
libknet1: 1.16-pve1
libproxmox-acme-perl: 1.0.5
libpve-access-control: 6.1-2
libpve-apiclient-perl: 3.0-3
libpve-common-perl: 6.2-1
libpve-guest-common-perl: 3.1-3
libpve-http-server-perl: 3.0-6
libpve-storage-perl: 6.2-6
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.3-1
lxcfs: 4.0.3-pve3
novnc-pve: 1.1.0-1
openvswitch-switch: 2.12.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.2-12
pve-cluster: 6.1-8
pve-container: 3.1-13
pve-docs: 6.2-5
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-2
pve-firmware: 3.1-3
pve-ha-manager: 3.1-1
pve-i18n: 2.2-1
pve-qemu-kvm: 5.0.0-13
pve-xtermjs: 4.7.0-2
qemu-server: 6.2-14
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2

Dmesg (war leider zu lang für den Post): https://pastebin.com/Ar3F2Mdp

oguz · Dec 23, 2020

im dmesg sehe ich nichts besonderes, nur diese vielleicht: [16024.831506] perf: interrupt took too long (3130 > 3127), lowering kernel.perf_event_max_sample_rate to 63750

wenn du /var/log/journal angelegt hast, dann bitte warten bis der crash nochmal passiert und journal posten. (journalctl -b -1 ist vom letzten boot)

proxmox-ve: 6.2-1 (running kernel: 5.4.60-1-pve)

ich wuerde auch empfehlen dass du zur letzten version updatest.

jochenmehlich · Dec 23, 2020

Der journal ist mal wieder (wer hätte es bei logdateien gedacht ;D) etwas länger, weshalb er wieder bei pastebin zu finden ist: https://pastebin.com/cQeKmXZP

Habe jetzt auch das System auf den neusten Stand gebracht und bin gerade beim rebooting.

oguz · Dec 23, 2020

ich glaub das ist nicht die komplette journal. kannst du so probieren: journalctl -b -1 > journal.txt und die datei hier posten?

jochenmehlich · Dec 23, 2020

Hattest Recht, aus irgendeinem Grund (ich hatte es eigentlich auch auf eine txt datei printen lassen) hat es nicht den kompletten Log reingepackt.

Hier noch die komplette Datei.

Vielen Dank für die HIlfe

oguz · Dec 23, 2020

ist der crash eigentlich nochmal passiert? ich sehe da nichts interessantes.

und uebrigens solltest du vielleicht fail2ban konfigurieren [0]

Code:

$ grep Fail journal.txt
Dez 22 03:44:29 hostserver-1 sshd[45569]: Failed password for root from 45.155.205.87 port 18238 ssh2
Dez 22 03:44:33 hostserver-1 sshd[45572]: Failed password for root from 45.155.205.87 port 32972 ssh2
Dez 22 03:44:36 hostserver-1 sshd[45595]: Failed password for root from 45.155.205.87 port 40719 ssh2
Dez 22 03:49:27 hostserver-1 sshd[46269]: Failed password for root from 120.133.60.235 port 37566 ssh2
Dez 22 03:56:57 hostserver-1 sshd[47308]: Failed password for root from 120.133.60.235 port 52078 ssh2
Dez 22 04:00:20 hostserver-1 sshd[47778]: Failed password for root from 218.92.0.133 port 25729 ssh2
Dez 22 04:00:24 hostserver-1 sshd[47778]: Failed password for root from 218.92.0.133 port 25729 ssh2
Dez 22 04:00:29 hostserver-1 sshd[47778]: Failed password for root from 218.92.0.133 port 25729 ssh2
Dez 22 04:00:34 hostserver-1 sshd[47778]: Failed password for root from 218.92.0.133 port 25729 ssh2
Dez 22 04:03:23 hostserver-1 sshd[48193]: Failed password for invalid user pi from 141.98.80.177 port 23408 ssh2

[0]: https://pve.proxmox.com/wiki/Fail2ban

jochenmehlich · Dec 23, 2020

Soweit ich mich errinnere (und hoffe) war das die Logdatei vom Crash, könnte es sein, dass diese vom Update und den darauffolgenden reboot überschrieben wurde (habe journalctl -b -2 > jorunal.txt benutzt).

Zwecks Fail2Ban vielen Dank für den Hinweis, ich werde Fail2Ban unverzüglich nachkonfigurieren

oguz · Dec 23, 2020

jochenmehlich said:
Soweit ich mich errinnere (und hoffe) war das die Logdatei vom Crash, könnte es sein, dass diese vom Update und den darauffolgenden reboot überschrieben wurde (habe journalctl -b -2 > jorunal.txt benutzt).

naja die log beginnt am dez 21. stimmt so? hattest du schon vor dem crash /var/log/journal angelegt? wenn nicht dann musst du warten bis es nochmal passiert, und dann die logs nochmal anschauen

jochenmehlich said:
Zwecks Fail2Ban vielen Dank für den Hinweis, ich werde Fail2Ban unverzüglich nachkonfigurieren

gerne

jochenmehlich · Dec 23, 2020

oguz said:
naja die log beginnt am dez 21. stimmt so? hattest du schon vor dem crash /var/log/journal angelegt? wenn nicht dann musst du warten bis es nochmal passiert, und dann die logs nochmal anschauen

Jep, eigentlich war die schon vor dem Crash da. Egal dann warte ich einfach mal bis er nochmal crasht, vielleicht hat ja das update wieder alles gefixt

jochenmehlich · Dec 24, 2020

Leider hat das Update nicht das Problem gefixt, wie sagt man täglich grüßt das Murmeltier

micneu · Dec 26, 2020

leider vermisse ich die info, wie alt ist die hardware?
bitte mal hersteller und model angeben.

jochenmehlich · Dec 26, 2020

Kein Problem, dachte es wäre relativ irrelevant.

Bei der CPU handelt es sich (auszug aus Proxmo): 8 x Intel(R) Core(TM) i7-3770 CPU @ 3.40GHz (1 Socket)

Diese sollte eigentlich funktionieren, aber keine Ahnung.

16GB Arbeitsspeicher und 2x 3 TB HDD SATA Festplatten im Raid 1

Zur sicherheit noch mal inxi -F:

System:
Host: hostserver-1 Kernel: 5.4.78-2-pve x86_64
bits: 64 Console: tty 0
Distro: Debian GNU/Linux 10 (buster)
Machine:
Type: Desktop Mobo: ASUSTeK model: P8H77-M PRO
v: Rev X.0x serial: #################
BIOS: American Megatrends v: 9012
date: 09/18/2018
CPU:
Topology: Quad Core model: Intel Core i7-3770
bits: 64 type: MT MCP L2 cache: 8192 KiB
Speed: 2351 MHz min/max: 1600/3900 MHz
Core speeds (MHz): 1: 2371 2: 3134 3: 3868
4: 1617 5: 1657 6: 2441 7: 2527 8: 3846
Graphics:
Device-1: Intel Xeon E3-1200 v2/3rd Gen Core
processor Graphics
driver: N/A
Display: tty server: N/A driver: N/A tty: 55x14
Message: Advanced graphics data unavailable in
console for root.
Audio:
Device-1: Intel 7 Series/C216 Family High
Definition Audio
driver: snd_hda_intel
Sound Server: ALSA v: k5.4.78-2-pve
Network:
Device-1: Realtek RTL8111/8168/8411 PCI Express
Gigabit Ethernet
driver: r8169
IF: enp3s0 state: up speed: 1000 Mbps
duplex: full mac: #################
IF-ID-1: bonding_masters state: N/A speed: N/A
duplex: N/A mac: N/A
IF-ID-2: fwbr103i0 state: up speed: N/A
duplex: N/A mac: #################
IF-ID-3: fwln103i0 state: up speed: 10000 Mbps
duplex: full mac: #################
IF-ID-4: fwpr103p0 state: up speed: 10000 Mbps
duplex: full mac: #################
IF-ID-5: tap100i0 state: unknown speed: 10 Mbps
duplex: full mac: #################
IF-ID-6: tap102i0 state: unknown speed: 10 Mbps
duplex: full mac: #################
IF-ID-7: tap103i0 state: unknown speed: 10 Mbps
duplex: full mac: #################
IF-ID-8: vmbr0 state: up speed: N/A duplex: N/A
mac:#################
IF-ID-9: vmbr1 state: unknown speed: N/A
duplex: N/A mac: #################
IF-ID-10: vmbr3 state: unknown speed: N/A
duplex: N/A mac: #################
Drives:
Local Storage: total: 5.46 TiB
used: 2.14 TiB (39.2%)
ID-1: /dev/sda vendor: Toshiba model: DT01ACA300
size: 2.73 TiB
ID-2: /dev/sdb vendor: Toshiba model: DT01ACA300
size: 2.73 TiB
RAID:
Device-1: md2 type: mdraid status: active
raid: mirror report: 2/2 UU Components:
online: sdb3~c1 sda3~c0
Device-2: md1 type: mdraid status: active
raid: mirror report: 2/2 UU Components:
online: sdb2~c1 sda2~c0
Device-3: md0 type: mdraid status: active
raid: mirror report: 2/2 UU Components:
online: sdb1~c1 sda1~c0
Partition:
ID-1: / size: 2.68 TiB used: 2.14 TiB (79.8%)
fs: ext4 dev: /dev/md2
ID-2: /boot size: 486.8 MiB
used: 213.2 MiB (43.8%) fs: ext3 dev: /dev/md1
ID-3: swap-1 size: 7.99 GiB
used: 2.52 GiB (31.5%) fs: swap dev: /dev/md0
Sensors:
System Temperatures: cpu: 29.8 C mobo: 27.8 C
Fan Speeds (RPM): N/A
Info:
Processes: 214 Uptime: 1d 16h 33m
Memory: 15.55 GiB used: 13.57 GiB (87.3%)
Init: systemd runlevel: 5 Shell: bash
inxi: 3.0.32

micneu · Dec 26, 2020

ok, also doch schon eine SEHR alte hardware und auch keine richtige server hardware (24/7).
könnte mir schpn vorstellen bei dem alter das es an ram oder irgendwelche kondensatoren sind.

jochenmehlich · Dec 26, 2020

Naja, der Server lief vor Proxmox auch knapp 300 Tage teilweise unter vollleistung (also echt alle 8 Threads zu 100% ausgelastet) komplett durch. Ebenfalls habe ich durch das Rechenzentrum einen kompletten Hardwarecheck machen lassen und auch die Hardware komplett auswechseln lassen.

Das jetzt die Hardware ein Problem sein soll, kann ich mir nur ganz schwer vorstellen.

micneu · Dec 26, 2020

ich kann mich auch irren, nur bei dem alter der hardware, ist alles möglich.
wir tauschen bei uns im rz alle 5 jahre die server aus.
- erhötes ausfall risiko
- garantie zahlung werden zu teuer (verlängerung)
- effizienz ist bei neuer hardware besser

jochenmehlich · Dec 26, 2020

Wäre halt echt blöd. Ich betreibe den Server halt als Hobby (also Cloud, Websites und Email), bin gerade 18 Jahre alt und Schüler, weshalb es sich aus wirtschaftlicher Sicht nicht lohnt, sich neue Hardware zu mieten.

Ich fand es halt für meine Bedürfnisse vom Preis fair: gerade mal 28€ im Monat für 4 IPv4 Adressen, 1 GBit Flatrate usw..

Gäbe es einen anderen Grund, der die Abstürtze erklären würde?

abma · Feb 22, 2021

Fals du das Problem noch nicht gelöst hast, mal als Idee was es noch sein könnte: Der Speicherverbrauch ist recht hoch. Für meinen Geschmack Swapt der Server zu viel:

ID-3: swap-1 size: 7.99 GiB
used: 2.52 GiB (31.5%) fs: swap dev: /dev/md0

Ich erinnre mich dunkel, dass ich auch mal Probleme mit fail2ban hatte: dies kann sehr viel Speicher verbrauche. Vielleicht das einfach mal testweise deaktivieren?

Wenns das noch nicht gemacht wird: die Performance Daten sollten überwacht werden: cpu last / speicherverbrauch / swap usage. Das gibt vielleicht einen hinweis wo es da klemmt.

jochenmehlich · Feb 22, 2021

Hallo abma,

vielen Dank für den Tipp. Ich habe die Ramauslastungen und insbesondere die Swap-Auslastungen nach Applikationen auslesen und sortieren lassen. Demnach sind vorallem die KVM Prozesse (die VMs - wer hätte es gedacht) Topreiter. Gefolgt von Ceph. Fail2Ban ist mit einer so geringen Auslastung aufgeführt, dass ich denke, dies abzuschalten, mehr schaden, als helfen würde. Trotzdem behalte ich diesen Schritt mal im Hinterkopf und schaue, ob es nach der komplette deinstallation von Ceph getan ist. Vielen dank für den Tipp.

P.S: Der hohe Swap war tatsächlich nur kurzfristig, die durchschnittliche Swap-Auslastung beträgt aktuell 800MB.

Mit freundlichen Grüßen

Jochen Mehlich

Server crasht immer wieder

Member

Proxmox Retired Staff

Member

Proxmox Retired Staff

Member

Proxmox Retired Staff

Member

Attachments

Proxmox Retired Staff

Member

Proxmox Retired Staff

Member

Member

Attachments

Member

Member

Member

Member

Member

Member

Member

Member