[SOLVED] Server abgestürtzt?

Nov 13, 2019
32
1
8
41
Hallo zusammen ich bins mal wieder.

komme heute morgen in die Arbeit und einer unserer PVEs sieht so aus:
1578472446706.png

die VMS laufen alle noch... ein qm list läuft ins leere und kann nicht abgebrochen werden
1578472498519.png#

hat jemand mehr Ideen zum debuggen möchte den eigentlich nicht neustarten... da die VMS wichtige Server sind!

Vielen dank für eure Hilfe!!
 
Sind die Storages wirklich offline? Wie sind die angebunden, via NFS?
Falls die offline sind, könnten die die Ursache sein, falls die nicht wirklich offline sind, sondern nur so angezeigt werden, ist das eher Symptom statt Ursache.

Achso und es fehlen noch ein paar Angaben:
Ist das ein Proxmox Cluster oder ein Einzelsystem?

Falls Cluster: Wie sehen die anderen Nodes aus? Funktioniert die Cluster-Kommunikation (Corosync)?
 
nein die storages sind nicht offline das funktioniert alles nur bei den anderen PVEs im Cluster... nur eben bei dem nicht ;(

wir haben einen Cluster mit 6 nodes und ca. 50 VMS

die anderen NOdes arbeiten wunderbar

ah und danke für die antwort ;)
1578475423066.png

1578477835790.png

Jan 8 08:23:59 le15763 corosync[730]: [KNET ] rx: host: 4 link: 0 is up
Jan 8 08:23:59 le15763 corosync[730]: [KNET ] rx: host: 3 link: 0 is up
Jan 8 08:23:59 le15763 corosync[730]: [KNET ] host: host: 6 (passive) best link: 0 (pri: 1)
Jan 8 08:23:59 le15763 corosync[730]: [KNET ] host: host: 1 (passive) best link: 0 (pri: 1)
Jan 8 08:23:59 le15763 corosync[730]: [KNET ] host: host: 4 (passive) best link: 0 (pri: 1)
Jan 8 08:23:59 le15763 corosync[730]: [KNET ] host: host: 3 (passive) best link: 0 (pri: 1)
Jan 8 08:24:00 le15763 corosync[730]: [KNET ] pmtud: PMTUD link change for host: 6 link: 0 from 469 to 1397
Jan 8 08:24:00 le15763 corosync[730]: [KNET ] pmtud: PMTUD link change for host: 5 link: 0 from 469 to 1397
Jan 8 08:24:00 le15763 corosync[730]: [KNET ] pmtud: PMTUD link change for host: 1 link: 0 from 469 to 1397
Jan 8 08:24:00 le15763 corosync[730]: [KNET ] pmtud: PMTUD link change for host: 3 link: 0 from 469 to 1397
Jan 8 08:24:00 le15763 corosync[730]: [KNET ] pmtud: PMTUD link change for host: 4 link: 0 from 469 to 1397
Jan 8 08:24:00 le15763 corosync[730]: [KNET ] pmtud: Global data MTU changed to: 1397
Jan 8 08:24:01 le15763 corosync[730]: [TOTEM ] A new membership (1.12d4) was formed. Members joined: 1 3 4 5 6
Jan 8 08:24:01 le15763 corosync[730]: [CPG ] downlist left_list: 0 received
Jan 8 08:24:01 le15763 corosync[730]: [CPG ] downlist left_list: 0 received
Jan 8 08:24:01 le15763 corosync[730]: [CPG ] downlist left_list: 0 received
Jan 8 08:24:01 le15763 corosync[730]: [CPG ] downlist left_list: 0 received
Jan 8 08:24:01 le15763 corosync[730]: [CPG ] downlist left_list: 0 received
Jan 8 08:24:01 le15763 corosync[730]: [CPG ] downlist left_list: 0 received
Jan 8 08:24:01 le15763 corosync[730]: [QUORUM] This node is within the primary component and will provide service.
Jan 8 08:24:01 le15763 corosync[730]: [QUORUM] Members[6]: 1 2 3 4 5 6
Jan 8 08:24:01 le15763 corosync[730]: [MAIN ] Completed service synchronization, ready to provide service.
Jan 8 08:27:51 le15763 systemd[1]: Stopping PVE API Proxy Server...
Jan 8 08:29:21 le15763 systemd[1]: pveproxy.service: Stopping timed out. Terminating.
Jan 8 08:29:21 le15763 pveproxy[28423]: received signal TERM
Jan 8 08:29:21 le15763 pveproxy[28423]: server closing
Jan 8 08:29:31 le15763 pveproxy[28423]: error stopping workers (will kill them now) - timeout
Jan 8 08:29:31 le15763 pveproxy[28423]: kill worker 21611
Jan 8 08:29:31 le15763 pveproxy[28423]: kill worker 13306
Jan 8 08:29:31 le15763 pveproxy[28423]: kill worker 15332
Jan 8 08:29:31 le15763 pveproxy[28423]: server stopped
Jan 8 08:30:51 le15763 systemd[1]: pveproxy.service: State 'stop-sigterm' timed out. Killing.
Jan 8 08:30:51 le15763 systemd[1]: pveproxy.service: Killing process 1247 (pveproxy) with signal SIGKILL.
Jan 8 08:30:51 le15763 systemd[1]: pveproxy.service: Killing process 1465 (pveproxy worker) with signal SIGKILL.
Jan 8 08:32:21 le15763 systemd[1]: pveproxy.service: Processes still around after SIGKILL. Ignoring.
Jan 8 08:32:38 le15763 systemd[1]: Started Session 2263 of user root.
Jan 8 08:33:51 le15763 systemd[1]: pveproxy.service: State 'stop-final-sigterm' timed out. Killing.
Jan 8 08:33:51 le15763 systemd[1]: pveproxy.service: Killing process 1247 (pveproxy) with signal SIGKILL.
Jan 8 08:35:22 le15763 systemd[1]: pveproxy.service: Processes still around after final SIGKILL. Entering failed mode.
Jan 8 08:35:22 le15763 systemd[1]: pveproxy.service: Failed with result 'timeout'.
Jan 8 08:35:22 le15763 systemd[1]: Stopped PVE API Proxy Server.
Jan 8 08:36:54 le15763 systemd[1]: Started Session 2264 of user root.
Jan 8 08:37:09 le15763 systemd[1]: pveproxy.service: Found left-over process 1247 (pveproxy) in control group while starting unit. Ignoring.
Jan 8 08:37:09 le15763 systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies.
Jan 8 08:37:09 le15763 systemd[1]: Starting PVE API Proxy Server...
Jan 8 08:38:01 le15763 systemd[1]: pveproxy.service: Control process exited, code=killed, status=15/TERM
Jan 8 08:39:31 le15763 systemd[1]: pveproxy.service: State 'stop-final-sigterm' timed out. Killing.
Jan 8 08:39:31 le15763 systemd[1]: pveproxy.service: Killing process 1247 (pveproxy) with signal SIGKILL.
Jan 8 08:41:01 le15763 systemd[1]: pveproxy.service: Processes still around after final SIGKILL. Entering failed mode.
Jan 8 08:41:01 le15763 systemd[1]: pveproxy.service: Failed with result 'timeout'.
Jan 8 08:41:01 le15763 systemd[1]: Stopped PVE API Proxy Server.
Jan 8 08:52:10 le15763 systemd[1]: Started Session 2265 of user root.
Jan 8 09:25:36 le15763 systemd[1]: Started Session 2266 of user root.
Jan 8 09:27:39 le15763 systemd[1]: Started Session 2267 of user root.
Jan 8 10:09:39 le15763 kernel: [7169325.173150] sh (13441): drop_caches: 3
Jan 8 10:09:42 le15763 kernel: [7169328.378851] sh (13517): drop_caches: 3
Jan 8 10:09:45 le15763 kernel: [7169331.462170] sh (13527): drop_caches: 3
Jan 8 10:14:20 le15763 systemd[1]: Started Session 2268 of user root.
Jan 8 10:22:15 le15763 systemd[1]: Started Session 2269 of user root.
Jan 8 11:05:01 le15763 systemd[1]: Starting Cleanup of Temporary Directories...
Jan 8 11:05:01 le15763 systemd[1]: systemd-tmpfiles-clean.service: Succeeded.
Jan 8 11:05:01 le15763 systemd[1]: Started Cleanup of Temporary Directories.
Jan 8 11:16:45 le15763 systemd[1]: pveproxy.service: Found left-over process 1247 (pveproxy) in control group while starting unit. Ignoring.
Jan 8 11:16:45 le15763 systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies.
 
Last edited:
Also nochmal ich... defakto is es so das egal was ich eingebe die verbindung zum Putty abbricht z.b.

pvestatd status geht nix weiter auch mit strg+c lässt sich das nicht beenden und ich muss putty neustarten

sogar df -h bricht ab

qm bricht ab
usw usw... bin verzweifelt hoffe mir kann jemand helfen da ich den server nicht neustarten kann...
 
Hey,

hatte das schon mal in Verbindung mit ZFS und swap. Ursache für hängendes df -h / qm list etc. ist bei uns immer ein Process im D state gewesen.
Manchmal hilft da ein einfaches

"systemctl restart pve-cluster".

Ob das in diesem Fall a) gefahrlos möglich ist und b) auch hilft, kann ich nicht sagen. Das nur als Idee. Mit den Begriffen swap / zfs / state D kann Dir ansonsten vermutlich eine Suche helfen.

Gruß und viel Erfolg.
 
nice genau das wars vielen dank !!

systemctl restart pve-cluster
systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatsd

hab die alle gemacht und das ging wichtig war mit mit dem pve-cluster anfangen! ;) grüße und nochmal vielen dank!!!
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!