VMs und Container stürzen ab

BOSSJoe · Jan 12, 2021

Hi zusammen,
ich könnte mal eure Hilfe gebrauchen.

Letzten Monat habe ich mein Homelab ein wenig aufgewertet und habe mir relativ aktuelle Consumer Hardware für meinen Proxmox Server und das dazugehörige TrueNAS gekauft. Seit ein paar Wochen läuft auf dem TrueNAS nun ein NFS Share welcher an Proxmox gemountet ist für die VMs und Container.

An sich laufen noch gar nicht so viele Sachen. Testweise habe ich nur einen Container für meinen Ubiquiti Unifi Controller und je eine VM für mein Home Assistant und Conbee am laufen.

Allerdings habe ich aktuell ständig Abstürze bei den VMs und Containern. Dies geht soweit das ich den Unifi Container nur noch durch einen harten Reboot von Proxmox selbst gestoppt bekomme. Die beiden VMs kann ich wenigstens hart ausschalten.

Auch auf TrueNAS kann ich mich nicht mehr einloggen, also auf das WebUI. Anpingen geht allerdings noch.

In Proxmox sehe ich ein Fragezeichen an meinem NFS Share.

Erst hatte ich die Proxmox Backups im Verdacht. Allerdings habe ich diese bereits deaktiviert und trotzdem stürzt alles ab.

Könnte mir jemand helfen und mir sagen wo ich nachsehen kann was da passiert? Ich würde das Problem gerne noch ein wenig eingrenzen.

Vielen Dank.

Johannes

oguz · Jan 12, 2021

hi,

BOSSJoe said:
Allerdings habe ich aktuell ständig Abstürze bei den VMs und Containern.

wie meinst du das genau? was passiert z.b.? siehst du irgendwas in tasklog auf dem GUI, oder vielleicht etwas in journalctl oder /var/log/syslog?

BOSSJoe · Jan 12, 2021

oguz said:
hi,

wie meinst du das genau? was passiert z.b.? siehst du irgendwas in tasklog auf dem GUI, oder vielleicht etwas in journalctl oder /var/log/syslog?

Hi,
vielen Dank für die schnelle Antwort.
Bei mir äußert es sich so das ich nicht mehr auf die Webdienste der VMs und Container zugreifen kann. Im Tasklog hab ich nichts stehen und auch unter /var/log/syslog steht nichts drin. Das Log scheint nicht weit genug zurück zu gehen. Kann es sein das dieses nach einem Neustart gelöscht wird?
Gefühlt wird Proxmox generell sehr langsam. Ich hatte mal probiert eine VM über SSH zu killen. Allein der Login an der Konsole dauerte bis zu einer Minute...
Vielen Dank

Johannes

oguz · Jan 12, 2021

BOSSJoe said:
Das Log scheint nicht weit genug zurück zu gehen. Kann es sein das dieses nach einem Neustart gelöscht wird?

es gibt doch auch /var/log/syslog.1 , /var/log/syslog.N.gz usw. bitte drin schauen. zcat /var/log/syslog.N.gz

BOSSJoe said:
Bei mir äußert es sich so das ich nicht mehr auf die Webdienste der VMs und Container zugreifen kann

timeout? oder connection refused? vielleicht firewall settings?

BOSSJoe said:
Gefühlt wird Proxmox generell sehr langsam. Ich hatte mal probiert eine VM über SSH zu killen. Allein der Login an der Konsole dauerte bis zu einer Minute...

schaut irgendwas bei den graphen auf dem GUI weird aus?

BOSSJoe · Jan 12, 2021

Ich habe mal einen Auszug aus dem /var/log/syslog.1 angehängt. Ich hoffe es ist nicht zu lang...

Wenn ich das richtig verstehe bekomme ich 23:45 Uhr einen Timeout bei der Verbindung zum NFS Share. Allerdings kann ich das nicht nachvollziehen. Ich schalte ja da nichts ab oder so ähnlich...

Vielleicht noch eine wichtige Info in dem Log was ich jetzt übersehen habe?

Vielen Dank

Johannes

oguz · Jan 12, 2021

BOSSJoe said:
Wenn ich das richtig verstehe bekomme ich 23:45 Uhr einen Timeout bei der Verbindung zum NFS Share. Allerdings kann ich das nicht nachvollziehen. Ich schalte ja da nichts ab oder so ähnlich...

ja stimmt. kannst du dieses kommando ausprobieren: rpcinfo your.nfs.server.ip ? was kriegst du zurueck?

BOSSJoe · Jan 12, 2021

root@pve01:/var/log# rpcinfo 10.30.10.10
program version netid address service owner
100000 4 tcp 0.0.0.0.0.111 portmapper superuser
100000 3 tcp 0.0.0.0.0.111 portmapper superuser
100000 2 tcp 0.0.0.0.0.111 portmapper superuser
100000 4 udp 0.0.0.0.0.111 portmapper superuser
100000 3 udp 0.0.0.0.0.111 portmapper superuser
100000 2 udp 0.0.0.0.0.111 portmapper superuser
100000 4 tcp6 ::.0.111 portmapper superuser
100000 3 tcp6 ::.0.111 portmapper superuser
100000 4 udp6 ::.0.111 portmapper superuser
100000 3 udp6 ::.0.111 portmapper superuser
100000 4 local /var/run/rpcbind.sock portmapper superuser
100000 3 local /var/run/rpcbind.sock portmapper superuser
100000 2 local /var/run/rpcbind.sock portmapper superuser
100005 1 udp6 ::.2.104 mountd superuser
100005 3 udp6 ::.2.104 mountd superuser
100005 1 tcp6 ::.2.104 mountd superuser
100005 3 tcp6 ::.2.104 mountd superuser
100005 1 udp 0.0.0.0.2.104 mountd superuser
100005 3 udp 0.0.0.0.2.104 mountd superuser
100005 1 tcp 0.0.0.0.2.104 mountd superuser
100005 3 tcp 0.0.0.0.2.104 mountd superuser
100003 2 tcp 0.0.0.0.8.1 nfs superuser
100003 3 tcp 0.0.0.0.8.1 nfs superuser
100024 1 udp6 ::.2.221 status superuser
100024 1 tcp6 ::.2.221 status superuser
100024 1 udp 0.0.0.0.2.221 status superuser
100024 1 tcp 0.0.0.0.2.221 status superuser
100003 2 tcp6 ::.8.1 nfs superuser
100003 3 tcp6 ::.8.1 nfs superuser
100021 0 udp6 ::.3.84 nlockmgr superuser
100021 0 tcp6 ::.2.88 nlockmgr superuser
100021 0 udp 0.0.0.0.2.255 nlockmgr superuser
100021 0 tcp 0.0.0.0.2.89 nlockmgr superuser
100021 1 udp6 ::.3.84 nlockmgr superuser
100021 1 tcp6 ::.2.88 nlockmgr superuser
100021 1 udp 0.0.0.0.2.255 nlockmgr superuser
100021 1 tcp 0.0.0.0.2.89 nlockmgr superuser
100021 3 udp6 ::.3.84 nlockmgr superuser
100021 3 tcp6 ::.2.88 nlockmgr superuser
100021 3 udp 0.0.0.0.2.255 nlockmgr superuser
100021 3 tcp 0.0.0.0.2.89 nlockmgr superuser
100021 4 udp6 ::.3.84 nlockmgr superuser
100021 4 tcp6 ::.2.88 nlockmgr superuser
100021 4 udp 0.0.0.0.2.255 nlockmgr superuser
100021 4 tcp 0.0.0.0.2.89 nlockmgr superuser

oguz · Jan 12, 2021

ok...

noch bitte:
- pvesm status
- ls -l /mnt/pve/Ironwolf_NFS

ich glaube deine VMs stuerzen wegen dem NFS ab.. kannst du auch probieren die disks auf dem lokalen storage zu schieben und schauen ob dieses problem nochmal passiert?

EDIT:

und bitte noch: pveversion -v

BOSSJoe · Jan 12, 2021

Hi,

das hatte ich mir auch schon überlegt auszuprobieren. Allerdings sollte es wirklich am NFS Share liegen wüßte ich ehrlich gesagt nicht was das sein soll...
Bin gerade dabei mir die Logs von TrueNAS anzusehen. Da finde ich aber auch nix wirklich passendes was das erklären würde.

Hier mal die Ergebnisse der Befehle:

root@pve01:/var/log# pvesm status
Name Type Status Total Used Available %
Ironwolf_NFS nfs active 13353441024 22003328 13331437696 0.16%
Local_SSD_RAID1 zfspool active 471334612 936 471333676 0.00%
local dir active 112748544 1265920 111482624 1.12%
local-zfs zfspool active 111482788 96 111482692 0.00%

root@pve01:/var/log# ls -l /mnt/pve/Ironwolf_NFS
total 19
drwx------ 5 1002 root 7 Jan 7 01:30 dump
drwx------ 9 1002 root 9 Dec 18 16:27 images
drwx------ 2 1002 root 2 Dec 18 15:11 private
drwx------ 2 1002 root 2 Dec 18 15:11 snippets
drwx------ 4 1002 root 4 Dec 18 15:11 template

root@pve01:/var/log# pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.78-2-pve)
pve-manager: 6.3-3 (running version: 6.3-3/eee5f901)
pve-kernel-5.4: 6.3-3
pve-kernel-helper: 6.3-3
pve-kernel-5.4.78-2-pve: 5.4.78-2
pve-kernel-5.4.73-1-pve: 5.4.73-1
ceph-fuse: 12.2.11+dfsg1-2.1+b1
corosync: 3.0.4-pve1
criu: 3.11-3
glusterfs-client: 5.5-3
ifupdown: 0.8.35+pve1
ksm-control-daemon: 1.3-1
libjs-extjs: 6.0.1-10
libknet1: 1.16-pve1
libproxmox-acme-perl: 1.0.7
libproxmox-backup-qemu0: 1.0.2-1
libpve-access-control: 6.1-3
libpve-apiclient-perl: 3.1-3
libpve-common-perl: 6.3-2
libpve-guest-common-perl: 3.1-3
libpve-http-server-perl: 3.1-1
libpve-storage-perl: 6.3-3
libqb0: 1.0.5-1
libspice-server1: 0.14.2-4~pve6+1
lvm2: 2.03.02-pve4
lxc-pve: 4.0.3-1
lxcfs: 4.0.3-pve3
novnc-pve: 1.1.0-1
proxmox-backup-client: 1.0.6-1
proxmox-mini-journalreader: 1.1-1
proxmox-widget-toolkit: 2.4-3
pve-cluster: 6.2-1
pve-container: 3.3-2
pve-docs: 6.3-1
pve-edk2-firmware: 2.20200531-1
pve-firewall: 4.1-3
pve-firmware: 3.1-3
pve-ha-manager: 3.1-1
pve-i18n: 2.2-2
pve-qemu-kvm: 5.1.0-7
pve-xtermjs: 4.7.0-3
qemu-server: 6.3-2
smartmontools: 7.1-pve2
spiceterm: 3.1-1
vncterm: 1.6-2
zfsutils-linux: 0.8.5-pve1

Gruß

Johannes

Dunuin · Jan 12, 2021

Klingt für mich auch so, als wenn das am TrueNAS liegt. Wenn du schon schreibst, dass da nicht mal mehr das WebGUI von TrueNAS läuft, dann ist es ja kein wunder wenn NFS nicht mehr reagiert und die VMs/CTs nicht mehr wollen.
Am besten also auch mal in den Logs von TrueNAS gucken, warum da TrueNAS nicht mehr ansprechbar ist. Ich kenne das von FreeNAS sonst nur, wenn die CPU oder ZFS richtig ausgelastet ist, dass da das WebUI nicht mehr reagiert. Kann bei mir gelegendlich vorkommen, wenn ich da die Kompression vom Dataset auf gzip stelle und dann mit voller Bandbreite etwas auf das Dataset schreibe. Da geht dann die CPU-Auslastung auf über 90% und das WebGUI ist nicht erreichbar, bis da der Transfer fertig ist und die CPU-Auslastung wieder nachlässt.

BOSSJoe · Jan 12, 2021

Hi,

vielen Dank für die Hilfe.
Mal ne Idee wo ich genau nachsehen sollte? Die Logs die ich bis jetzt gesehen habe sind alle "frei" von "Auffälligkeiten"...

Vielen Dank

Johannes

Dunuin · Jan 12, 2021

Auf dem TrueNAS z.B. /var/log/console.log und /var/log/messages. Und über das WebGUI kannst du dir ja auch den Verlauf der ZFS/CPU Statistiken angucken.

pakuzaz · Jan 12, 2021

Switch oder direkt Verkabelung?

BOSSJoe · Jan 12, 2021

pakuzaz said:
Switch oder direkt Verkabelung?

Ist über einen Switch verkabelt.

Netzwerk hatte ich auch schon im Verdacht.

Was mich allerdings stutzig macht ist diese exakte Uhrzeit 23:45 Uhr als die Verbindung abgerissen ist.

Ich glaube ich werde das Ganze mal über Nacht laufen lassen und dann morgen noch einmal die Logs ansehen. Wenn das wieder um exakt die gleiche Zeit passiert scheint mir das irgendein Chronjob oder ähnliches zu sein...

Melde mich morgen noch einmal mit hoffentlich mehr Infos.

Vielen Dank noch einmal an alle hier.

Gruß

Johannes

Dunuin · Jan 12, 2021

Sonntag um 0 Uhr alle 35 Tage macht FreeNAS bei mir immer einen Scrub was den Pool extrem auslastet. Du kannst ja mal gucken wann da dein Scrub-Job läuft.

BOSSJoe · Jan 12, 2021

Dunuin said:
Sonntag um 0 Uhr alle 35 Tage macht FreeNAS bei mir immer einen Scrub was den Pool extrem auslastet. Du kannst ja mal gucken wann da dein Scrub-Job läuft.

Ich hab gerade mal geschaut. Ist bei mir genauso, scheint default zu sein.

Kann aber ehrlich gesagt nicht mein Thema sein. Passiert ja nur alle 35 Tage und bei mir steht das der nächste Run in 5 Tagen stattfindet.

Bin aber weiterhin für alle Tipps dankbar...

Vielen Dank

Johannes

BOSSJoe · Jan 13, 2021

Guten Morgen zusammen,

also wieder das gleiche Thema.

NFS Share war ab 23:50 Uhr nicht mehr zu erreichen und daher sind natürlich alle VMs abgestürzt.

TrueNAS WebUI ist nicht wirklich zu erreichen und per SSH kann ich mich zwar verbinden aber nach der Eingabe vom Passwort passiert überhaupt nichts. So als würde er den Befehl im Hintergrund immer weiter versuchen auszuführen (blinkender Curser).

Ich bin gestern noch einmal alle Einstellungen im TrueNAS durchgegangen und nirgends ist ein zeitgesteuerter Befehl eingetragen (außer Scrub alle 35 Tage) und die Logs sind auch nicht sehr ergiebig.

Wenn noch jemand eine Idee hat gerne immer her damit, ansonsten würde ich mein Glück mal im TrueNAS Forum probieren.

Vielen Dank für die Hilfe.

Gruß

Johannes

Dunuin · Jan 13, 2021

War denn laut den Diagrammen die CPU-Auslastung zu dem Zeitpunkt auf dem TrueNAS normal?

BOSSJoe · Jan 13, 2021

Dunuin said:
War denn laut den Diagrammen die CPU-Auslastung zu dem Zeitpunkt auf dem TrueNAS normal?

Hab gerade mal den TrueNAS Server neu gestartet und geschaut. Die Auslastung war die ganze Nacht rund 1%. Also das kann es auch nicht sein...

CoolTux · Jan 13, 2021

Ich würde da mal im TruNAS Forum nach fragen.

VMs und Container stürzen ab

Member

Proxmox Retired Staff

Member

Proxmox Retired Staff

Member

Attachments

Proxmox Retired Staff

Member

Proxmox Retired Staff

Member

Distinguished Member

Member

Distinguished Member

Active Member

Member

Distinguished Member

Member

Member

Distinguished Member

Member

Famous Member