Server crash

jms1000

Well-Known Member
Oct 25, 2016
150
4
58
59
Germany, Schkeuditz
www.sv-forensik.de
ich habe einen cluster mit drei servern. identische software (aktuelles proxmox) identische hardware.
auf einem der server (2 platten sind größer) läuft nfs (proxmox share).
und genau dieser schmiert sporadisch ab:
- system friert komplet fest
- mem- und disk-test ohne fehler
- nichts im syslog
- nichts in den anderen logfiles
- status im proxmox (cpu/ram/io/netzwerk) zeigt keine hohe last oder ähnliches
- sysctl mit "kernel.core.pattern / kernel.panic / kernel.unknown_nmi_panic" haben nichts geholfen
- konsole zeigt nix besonders (siehe Anhang)
- keyboard reagiert nicht, daher reset ...

hat jemand gute vorschläge den fehler zu finden?
 

Attachments

  • prx-crash.jpg
    prx-crash.jpg
    225.7 KB · Views: 14
identische software (aktuelles proxmox)
also d.h. die ausgabe von pveversion -v sollte bei allen servern dasselbe sein. koenntest du das bitte ueberpruefen? (damit wir wissen ob es eine regression o.ae. ist)

- system friert komplet fest
- mem- und disk-test ohne fehler
- nichts im syslog
- nichts in den anderen logfiles

kannst du auf GUI erreichen? kannst du den server pingen? kriegst du neue logs gleich nach dem freeze (ob die logs weitergehen oder nicht)?

was kommt in dmesg nach dem reset?

vielleicht gibt es irgendwas das du uebersehen hast. wenn du die logs schickst, wir koennen schauen was vor und nach dem angeblichen zeitpunkt vom freeze in die logs dringekommen ist.
 
Hi,

Welche Netzwerkkarte haben die Server?

Sollte es eine mit dem e1000 Kernel-Modul sein, so kann das hier evtl. helfen:

https://unix.stackexchange.com/questions/568252/linux-mint-intel-82579lm-nic-and-hardware-unit-hang

Schau mal im Syslog, ob dort deartige Einträge zu finden sind:

"e1000e 0000:00:19.0 eno1: Detected Hardware Unit Hang...

e1000e 0000:00:19.0 eno1: Reset adapter unexpectedly"

nix mit e1000 - wird ein r8169 geladen. auch in den logfiles nirgend was von e1000.
 
also d.h. die ausgabe von pveversion -v sollte bei allen servern dasselbe sein. koenntest du das bitte ueberpruefen? (damit wir wissen ob es eine regression o.ae. ist)



kannst du auf GUI erreichen? kannst du den server pingen? kriegst du neue logs gleich nach dem freeze (ob die logs weitergehen oder nicht)?

was kommt in dmesg nach dem reset?

vielleicht gibt es irgendwas das du uebersehen hast. wenn du die logs schickst, wir koennen schauen was vor und nach dem angeblichen zeitpunkt vom freeze in die logs dringekommen ist.

Alle Server sind gleich, da ich das update auf allen 3 "kisten" gleichzeitig gemacht habe :) Ich habe aber nochmal nach gesehen, sind alle 3 gleich.

Nach dem Crash geht nix mehr, kein Ping, keine GUI nix. Zu sehen ist auf der Console nur noch der Eintrag aus dem Anhang.
Nach dem Reset fährt er wieder hoch (Tastatureingaben mag er auch nicht mehr (Warmstart), und in den logs ist nichts ausser dem normal boot zu sehen. dmesg fängt auch ganz normal an, also wie bei einem normalen boot).
 
und in den logs ist nichts ausser dem normal boot zu sehen.
was siehst du vor dem boot? kannst du z.b. die letzten 10-15 minuten hier posten? (IP addressen usw. sollte mann entfernen)
 
was siehst du vor dem boot? kannst du z.b. die letzten 10-15 minuten hier posten? (IP addressen usw. sollte mann entfernen)

am Ende steht bin code (@^@^@.....)

Mar 3 03:00:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:00:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:00:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:00:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:00:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:00:00 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:00:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:00:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:00:29 prx-hz3 pvedaemon[7386]: <root@pam> successful auth for user 'root@pam'
Mar 3 03:00:29 prx-hz2 pmxcfs[998]: [status] notice: received log
Mar 3 03:00:29 prx-hz1 pmxcfs[1013]: [status] notice: received log
Mar 3 03:01:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:01:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:01:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:01:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:01:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:01:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:01:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:01:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:01:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:02:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:02:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:02:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:02:00 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:02:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:01 prx-hz1 CRON[23564]: pam_unix(cron:session): session opened for user logcheck by (uid=0)
Mar 3 03:02:01 prx-hz1 CRON[23565]: (logcheck) CMD ( if [ -x /usr/sbin/logcheck ]; then nice -n10 /usr/sbin/logcheck; fi)
Mar 3 03:02:01 prx-hz1 CRON[23564]: pam_unix(cron:session): session closed for user logcheck
Mar 3 03:02:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:02:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:01 prx-hz3 CRON[646]: pam_unix(cron:session): session opened for user logcheck by (uid=0)
Mar 3 03:02:01 prx-hz3 CRON[647]: (logcheck) CMD ( if [ -x /usr/sbin/logcheck ]; then nice -n10 /usr/sbin/logcheck; fi)
Mar 3 03:02:01 prx-hz2 CRON[5230]: pam_unix(cron:session): session opened for user logcheck by (uid=0)
Mar 3 03:02:01 prx-hz2 CRON[5231]: (logcheck) CMD ( if [ -x /usr/sbin/logcheck ]; then nice -n10 /usr/sbin/logcheck; fi)
Mar 3 03:02:01 prx-hz2 CRON[5230]: pam_unix(cron:session): session closed for user logcheck
Mar 3 03:02:04 prx-hz3 sSMTP[1767]: Sent mail for logcheck@prx-hz3.xxx.de (221 csc.de max SMTP closing connection) uid=110 username=logcheck outbytes=1488
Mar 3 03:02:04 prx-hz3 CRON[646]: pam_unix(cron:session): session closed for user logcheck
Mar 3 03:03:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:03:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:03:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:03:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:03:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:03:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:03:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:03:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:03:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:03:29 prx-hz1 pvedaemon[9315]: <root@pam> successful auth for user 'root@pam'
Mar 3 03:03:29 prx-hz3 pmxcfs[1063]: [status] notice: received log
Mar 3 03:03:29 prx-hz2 pmxcfs[998]: [status] notice: received log
Mar 3 03:03:59 prx-hz3 pveproxy[2061]: worker exit
Mar 3 03:03:59 prx-hz3 pveproxy[2192]: worker 2061 finished
Mar 3 03:03:59 prx-hz3 pveproxy[2192]: starting 1 worker(s)
Mar 3 03:03:59 prx-hz3 pveproxy[2192]: worker 2069 started
Mar 3 03:04:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:04:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:04:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:04:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:04:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:04:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:04:00 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:04:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:04:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:05:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:05:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:05:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:05:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:05:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:05:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:05:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:05:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:05:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:06:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:06:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:06:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:06:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:06:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:06:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:06:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:06:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:06:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:07:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:07:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:07:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:07:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:07:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:07:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:07:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Binary file /var/log/alles.log matches
 
am Ende steht bin code (@^@^@.....)
hmm okay das schaut nicht gut aus. kannst du bitte die pveversion -v posten?

wie oft passiert das? ist es regelmäßig?

wie schaut deine cluster config aus?
 
hmm okay das schaut nicht gut aus. kannst du bitte die pveversion -v posten?
pveversion -v
proxmox-ve: 6.1-2 (running kernel: 5.3.18-1-pve)
pve-manager: 6.1-7 (running version: 6.1-7/13e58d5e)
pve-kernel-5.3: 6.1-4
pve-kernel-helper: 6.1-4
pve-kernel-5.3.18-1-pve: 5.3.18-1
pve-kernel-5.3.13-2-pve: 5.3.13-2
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.3-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
libjs-extjs: 6.0.1-10
libknet1: 1.14-pve1
libpve-access-control: 6.0-6
libpve-apiclient-perl: 3.0-3
libpve-common-perl: 6.0-12
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-4
libpve-storage-perl: 6.1-4
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-3
pve-cluster: 6.1-4
pve-container: 3.0-19
pve-docs: 6.1-4
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-10
pve-firmware: 3.0-5
pve-ha-manager: 3.0-8
pve-i18n: 2.0-4
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 4.3.0-1
qemu-server: 6.1-5
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.3-pve1

wie oft passiert das? ist es regelmäßig?
02.02./05.02./13.02./14.02./16.02./20.02./28.02./03.03. ... immer zu unterschiedlichen Zeiten, meisstens früh morgens, wenn nix los ist.

wie schaut deine cluster config aus?

drei proxmox server. der defekte macht nfs und stellt das share für den cluster zur verfügung. kein zfs, kein ceph.
 
hast du die hardware auf dem server gecheckt? also disks usw. with smartctl pruefen und einen memtest laufen lassen waere interessant.

du kannst auch probieren, eine seriale konsole zu konfigurieren. so kannst du sehen was eigentlich passiert (auf dem bild im anhang ist nichts interessantes drauf, aber es kann sein das vorher etwas gekommen ist).

der defekte macht nfs und stellt das share für den cluster zur verfügung. kein zfs, kein ceph.
wenn es kein hardware problem ist, dann ist NFS suspekt. vielleicht hat das problem damit zu tun.
 
- memtest habe ich laufen lassen, nichts
- s-tui läuft seit gestern mittag, nichts
- smartctl habe ich ausgelesen
- die ausgaben auf der Konsole (Screenshot) decken sich mit dem Logfile, der Crash war nach den Ausgaben

NFS habe ich (als bauchgefühl) auch im Verdacht. Das Proxmox-Backup läuft von 00:00 Uhr und schiebt alles auf das NFS (auf dem sonst keine VM/CT liegt). Das Backup ist gegen 2:00 Uhr fertig. Da hat das NFS richtig Last ... der Crash kommt aber erst viel, viel später ...
Ein NFS-Lasttest (schreiben/lesen von den Clients auf das NFS) hat auch nix gebracht ...
Ich habe auch schon mit NFS 3/4.0/4.1/4.2 gespielt ... keine Änderung. Gefühlsmässig müsste NFS3 ja am schnellsten/eingfachsten sein.
 
vielleicht kannst du diesen server bist naechstes mal beobachten (mit einem monitoring-tool, i.e. zabbix/check_mk etc.)

so kann man merken wie die ressources benutzt werden
 
Hi,
mal ganz doof. Die drei Geräte hängen nicht an der selben Steckdose/ USV?

Ich hatte mal eine ganz "nette" 3fach-Tischsteckdose mit Schalter...
 
Dann hast du keinen direkten Zugriff auf's "Blech"?
Ich neige bei solchen Dingen immer mal dazu, in einer offline Phase die Kisten zu öffnen ummir mal alle Kabel anzuschauen.
Ist zwar evtl. etwas hausbacken, aber erst heute wieder Ticket "nix geht mehr an Rechner XY" -> Patchkabel gezogen...
 
Bietet dein Hoster Zugriff auf das IPMI oder Analogon des Rechners?
Evtl. kann man davon einen Stream in eine Aufnahme fahren um zu sehen, was auf einem Monitor stünde, wenn er hängen bleibt.
Bzw. IPMI sollte das auch so ausgeben können?
 
Bietet dein Hoster Zugriff auf das IPMI oder Analogon des Rechners?
Evtl. kann man davon einen Stream in eine Aufnahme fahren um zu sehen, was auf einem Monitor stünde, wenn er hängen bleibt.
Bzw. IPMI sollte das auch so ausgeben können?

Sieh weiter oben ...

Die Meldungen die ich noch auf der Konsole sehen kann (wenn Sie angesteckt ist), sind vor dem Crash entstanden und entsprechen dem was im Syslog steht. Alles was danch passiert steht weder im Syslog noch auf der Konsole. Die Kiste hängt sich demnach ohne jeden Kommtar auf.
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!