Server crash

jms1000 · Mar 3, 2020

ich habe einen cluster mit drei servern. identische software (aktuelles proxmox) identische hardware.
auf einem der server (2 platten sind größer) läuft nfs (proxmox share).
und genau dieser schmiert sporadisch ab:
- system friert komplet fest
- mem- und disk-test ohne fehler
- nichts im syslog
- nichts in den anderen logfiles
- status im proxmox (cpu/ram/io/netzwerk) zeigt keine hohe last oder ähnliches
- sysctl mit "kernel.core.pattern / kernel.panic / kernel.unknown_nmi_panic" haben nichts geholfen
- konsole zeigt nix besonders (siehe Anhang)
- keyboard reagiert nicht, daher reset ...

hat jemand gute vorschläge den fehler zu finden?

gmed · Mar 3, 2020

Hi,

Welche Netzwerkkarte haben die Server?

Sollte es eine mit dem e1000 Kernel-Modul sein, so kann das hier evtl. helfen:

https://unix.stackexchange.com/questions/568252/linux-mint-intel-82579lm-nic-and-hardware-unit-hang

Schau mal im Syslog, ob dort deartige Einträge zu finden sind:

"e1000e 0000:00:19.0 eno1: Detected Hardware Unit Hang...

e1000e 0000:00:19.0 eno1: Reset adapter unexpectedly"

oguz · Mar 3, 2020

jms1000 said:
identische software (aktuelles proxmox)

also d.h. die ausgabe von pveversion -v sollte bei allen servern dasselbe sein. koenntest du das bitte ueberpruefen? (damit wir wissen ob es eine regression o.ae. ist)

jms1000 said:
- system friert komplet fest
- mem- und disk-test ohne fehler
- nichts im syslog
- nichts in den anderen logfiles

kannst du auf GUI erreichen? kannst du den server pingen? kriegst du neue logs gleich nach dem freeze (ob die logs weitergehen oder nicht)?

was kommt in dmesg nach dem reset?

vielleicht gibt es irgendwas das du uebersehen hast. wenn du die logs schickst, wir koennen schauen was vor und nach dem angeblichen zeitpunkt vom freeze in die logs dringekommen ist.

jms1000 · Mar 3, 2020

gmed said:
Hi,

Welche Netzwerkkarte haben die Server?

Sollte es eine mit dem e1000 Kernel-Modul sein, so kann das hier evtl. helfen:

https://unix.stackexchange.com/questions/568252/linux-mint-intel-82579lm-nic-and-hardware-unit-hang

Schau mal im Syslog, ob dort deartige Einträge zu finden sind:

"e1000e 0000:00:19.0 eno1: Detected Hardware Unit Hang...

e1000e 0000:00:19.0 eno1: Reset adapter unexpectedly"

nix mit e1000 - wird ein r8169 geladen. auch in den logfiles nirgend was von e1000.

jms1000 · Mar 3, 2020

oguz said:
also d.h. die ausgabe von pveversion -v sollte bei allen servern dasselbe sein. koenntest du das bitte ueberpruefen? (damit wir wissen ob es eine regression o.ae. ist)

kannst du auf GUI erreichen? kannst du den server pingen? kriegst du neue logs gleich nach dem freeze (ob die logs weitergehen oder nicht)?

was kommt in dmesg nach dem reset?

vielleicht gibt es irgendwas das du uebersehen hast. wenn du die logs schickst, wir koennen schauen was vor und nach dem angeblichen zeitpunkt vom freeze in die logs dringekommen ist.

Alle Server sind gleich, da ich das update auf allen 3 "kisten" gleichzeitig gemacht habe

Ich habe aber nochmal nach gesehen, sind alle 3 gleich.

Nach dem Crash geht nix mehr, kein Ping, keine GUI nix. Zu sehen ist auf der Console nur noch der Eintrag aus dem Anhang.
Nach dem Reset fährt er wieder hoch (Tastatureingaben mag er auch nicht mehr (Warmstart), und in den logs ist nichts ausser dem normal boot zu sehen. dmesg fängt auch ganz normal an, also wie bei einem normalen boot).

oguz · Mar 3, 2020

jms1000 said:
und in den logs ist nichts ausser dem normal boot zu sehen.

was siehst du vor dem boot? kannst du z.b. die letzten 10-15 minuten hier posten? (IP addressen usw. sollte mann entfernen)

jms1000 · Mar 3, 2020

oguz said:
was siehst du vor dem boot? kannst du z.b. die letzten 10-15 minuten hier posten? (IP addressen usw. sollte mann entfernen)

am Ende steht bin code (@^@^@.....)

Mar 3 03:00:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:00:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:00:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:00:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:00:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:00:00 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:00:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:00:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:00:29 prx-hz3 pvedaemon[7386]: <root@pam> successful auth for user 'root@pam'
Mar 3 03:00:29 prx-hz2 pmxcfs[998]: [status] notice: received log
Mar 3 03:00:29 prx-hz1 pmxcfs[1013]: [status] notice: received log
Mar 3 03:01:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:01:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:01:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:01:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:01:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:01:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:01:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:01:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:01:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:02:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:02:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:02:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:02:00 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:02:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:01 prx-hz1 CRON[23564]: pam_unix(cron:session): session opened for user logcheck by (uid=0)
Mar 3 03:02:01 prx-hz1 CRON[23565]: (logcheck) CMD ( if [ -x /usr/sbin/logcheck ]; then nice -n10 /usr/sbin/logcheck; fi)
Mar 3 03:02:01 prx-hz1 CRON[23564]: pam_unix(cron:session): session closed for user logcheck
Mar 3 03:02:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:02:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:02:01 prx-hz3 CRON[646]: pam_unix(cron:session): session opened for user logcheck by (uid=0)
Mar 3 03:02:01 prx-hz3 CRON[647]: (logcheck) CMD ( if [ -x /usr/sbin/logcheck ]; then nice -n10 /usr/sbin/logcheck; fi)
Mar 3 03:02:01 prx-hz2 CRON[5230]: pam_unix(cron:session): session opened for user logcheck by (uid=0)
Mar 3 03:02:01 prx-hz2 CRON[5231]: (logcheck) CMD ( if [ -x /usr/sbin/logcheck ]; then nice -n10 /usr/sbin/logcheck; fi)
Mar 3 03:02:01 prx-hz2 CRON[5230]: pam_unix(cron:session): session closed for user logcheck
Mar 3 03:02:04 prx-hz3 sSMTP[1767]: Sent mail for logcheck@prx-hz3.xxx.de (221 csc.de max SMTP closing connection) uid=110 username=logcheck outbytes=1488
Mar 3 03:02:04 prx-hz3 CRON[646]: pam_unix(cron:session): session closed for user logcheck
Mar 3 03:03:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:03:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:03:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:03:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:03:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:03:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:03:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:03:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:03:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:03:29 prx-hz1 pvedaemon[9315]: <root@pam> successful auth for user 'root@pam'
Mar 3 03:03:29 prx-hz3 pmxcfs[1063]: [status] notice: received log
Mar 3 03:03:29 prx-hz2 pmxcfs[998]: [status] notice: received log
Mar 3 03:03:59 prx-hz3 pveproxy[2061]: worker exit
Mar 3 03:03:59 prx-hz3 pveproxy[2192]: worker 2061 finished
Mar 3 03:03:59 prx-hz3 pveproxy[2192]: starting 1 worker(s)
Mar 3 03:03:59 prx-hz3 pveproxy[2192]: worker 2069 started
Mar 3 03:04:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:04:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:04:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:04:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:04:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:04:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:04:00 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:04:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:04:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:05:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:05:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:05:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:05:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:05:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:05:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:05:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:05:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:05:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:06:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:06:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:06:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:06:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:06:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:06:01 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:06:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:06:01 prx-hz3 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:06:01 prx-hz3 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:07:00 prx-hz2 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:07:00 prx-hz1 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:07:00 prx-hz3 systemd[1]: Starting Proxmox VE replication runner...
Mar 3 03:07:00 prx-hz2 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:07:00 prx-hz2 systemd[1]: Started Proxmox VE replication runner.
Mar 3 03:07:00 prx-hz1 systemd[1]: pvesr.service: Succeeded.
Mar 3 03:07:01 prx-hz1 systemd[1]: Started Proxmox VE replication runner.
Binary file /var/log/alles.log matches

oguz · Mar 3, 2020

jms1000 said:
am Ende steht bin code (@^@^@.....)

hmm okay das schaut nicht gut aus. kannst du bitte die pveversion -v posten?

wie oft passiert das? ist es regelmäßig?

wie schaut deine cluster config aus?

jms1000 · Mar 3, 2020

oguz said:
hmm okay das schaut nicht gut aus. kannst du bitte die pveversion -v posten?

pveversion -v
proxmox-ve: 6.1-2 (running kernel: 5.3.18-1-pve)
pve-manager: 6.1-7 (running version: 6.1-7/13e58d5e)
pve-kernel-5.3: 6.1-4
pve-kernel-helper: 6.1-4
pve-kernel-5.3.18-1-pve: 5.3.18-1
pve-kernel-5.3.13-2-pve: 5.3.13-2
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.3-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
libjs-extjs: 6.0.1-10
libknet1: 1.14-pve1
libpve-access-control: 6.0-6
libpve-apiclient-perl: 3.0-3
libpve-common-perl: 6.0-12
libpve-guest-common-perl: 3.0-3
libpve-http-server-perl: 3.0-4
libpve-storage-perl: 6.1-4
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 3.2.1-1
lxcfs: 3.0.3-pve60
novnc-pve: 1.1.0-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.1-3
pve-cluster: 6.1-4
pve-container: 3.0-19
pve-docs: 6.1-4
pve-edk2-firmware: 2.20191127-1
pve-firewall: 4.0-10
pve-firmware: 3.0-5
pve-ha-manager: 3.0-8
pve-i18n: 2.0-4
pve-qemu-kvm: 4.1.1-2
pve-xtermjs: 4.3.0-1
qemu-server: 6.1-5
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-1
zfsutils-linux: 0.8.3-pve1

wie oft passiert das? ist es regelmäßig?

02.02./05.02./13.02./14.02./16.02./20.02./28.02./03.03. ... immer zu unterschiedlichen Zeiten, meisstens früh morgens, wenn nix los ist.

wie schaut deine cluster config aus?

drei proxmox server. der defekte macht nfs und stellt das share für den cluster zur verfügung. kein zfs, kein ceph.

oguz · Mar 4, 2020

hast du die hardware auf dem server gecheckt? also disks usw. with smartctl pruefen und einen memtest laufen lassen waere interessant.

du kannst auch probieren, eine seriale konsole zu konfigurieren. so kannst du sehen was eigentlich passiert (auf dem bild im anhang ist nichts interessantes drauf, aber es kann sein das vorher etwas gekommen ist).

jms1000 said:
der defekte macht nfs und stellt das share für den cluster zur verfügung. kein zfs, kein ceph.

wenn es kein hardware problem ist, dann ist NFS suspekt. vielleicht hat das problem damit zu tun.

jms1000 · Mar 4, 2020

- memtest habe ich laufen lassen, nichts
- s-tui läuft seit gestern mittag, nichts
- smartctl habe ich ausgelesen
- die ausgaben auf der Konsole (Screenshot) decken sich mit dem Logfile, der Crash war nach den Ausgaben

NFS habe ich (als bauchgefühl) auch im Verdacht. Das Proxmox-Backup läuft von 00:00 Uhr und schiebt alles auf das NFS (auf dem sonst keine VM/CT liegt). Das Backup ist gegen 2:00 Uhr fertig. Da hat das NFS richtig Last ... der Crash kommt aber erst viel, viel später ...
Ein NFS-Lasttest (schreiben/lesen von den Clients auf das NFS) hat auch nix gebracht ...
Ich habe auch schon mit NFS 3/4.0/4.1/4.2 gespielt ... keine Änderung. Gefühlsmässig müsste NFS3 ja am schnellsten/eingfachsten sein.

oguz · Mar 4, 2020

vielleicht kannst du diesen server bist naechstes mal beobachten (mit einem monitoring-tool, i.e. zabbix/check_mk etc.)

so kann man merken wie die ressources benutzt werden

gmed · Mar 4, 2020

Hi,
mal ganz doof. Die drei Geräte hängen nicht an der selben Steckdose/ USV?

Ich hatte mal eine ganz "nette" 3fach-Tischsteckdose mit Schalter...

jms1000 · Mar 4, 2020

oguz said:
vielleicht kannst du diesen server bist naechstes mal beobachten (mit einem monitoring-tool, i.e. zabbix/check_mk etc.)

so kann man merken wie die ressources benutzt werden

zabbix checkt natürlich, sieht man aber nicht mal auch nix ...

jms1000 · Mar 4, 2020

gmed said:
Hi,
mal ganz doof. Die drei Geräte hängen nicht an der selben Steckdose/ USV?

Ich hatte mal eine ganz "nette" 3fach-Tischsteckdose mit Schalter...

Schlimmer, stehen alle 3 in verschiedenen rechenzentern (beim gleichn hoster) ...

gmed · Mar 4, 2020

Dann hast du keinen direkten Zugriff auf's "Blech"?
Ich neige bei solchen Dingen immer mal dazu, in einer offline Phase die Kisten zu öffnen ummir mal alle Kabel anzuschauen.
Ist zwar evtl. etwas hausbacken, aber erst heute wieder Ticket "nix geht mehr an Rechner XY" -> Patchkabel gezogen...

jms1000 · Mar 5, 2020

nein, habe keinen Zugriff auf das Blech, ich muss mich auf die Techniker beom Hoster verlassen und ich denke die wissen in der Regel was Sie tun.

gmed · Mar 5, 2020

Bietet dein Hoster Zugriff auf das IPMI oder Analogon des Rechners?
Evtl. kann man davon einen Stream in eine Aufnahme fahren um zu sehen, was auf einem Monitor stünde, wenn er hängen bleibt.
Bzw. IPMI sollte das auch so ausgeben können?

jms1000 · Mar 5, 2020

gmed said:
Bietet dein Hoster Zugriff auf das IPMI oder Analogon des Rechners?
Evtl. kann man davon einen Stream in eine Aufnahme fahren um zu sehen, was auf einem Monitor stünde, wenn er hängen bleibt.
Bzw. IPMI sollte das auch so ausgeben können?

Sieh weiter oben ...

Die Meldungen die ich noch auf der Konsole sehen kann (wenn Sie angesteckt ist), sind vor dem Crash entstanden und entsprechen dem was im Syslog steht. Alles was danch passiert steht weder im Syslog noch auf der Konsole. Die Kiste hängt sich demnach ohne jeden Kommtar auf.

Server crash

Well-Known Member

Attachments

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Proxmox Retired Staff

Well-Known Member

Well-Known Member

Well-Known Member

Well-Known Member

Well-Known Member

Well-Known Member

Well-Known Member

We value your privacy