[SOLVED] Proxmox stürzt seit dem 31.03. 2:49 Uhr reproduzierbar ab bei Übertragung größerer Datenmengen

itsys

New Member
Oct 29, 2010
11
0
1
Saxony/Germany
www.itsysstl.de
Hallo zusammen,

unser Produktivsystem stürzt laut Log vom 3ware-Controller seit dem 31.03. ca. 2:49 Uhr relativ regelmäßig ab und startet neu. Als Ursache konnte ich jetzt mittlerweile große Dateitransfers (lesend) ausmachen.

Folgende Hardware ist im Einsatz: Intel Xeon E3-1270v6, 64 GB ECC RAM, 3ware 9750i4 RAID-Controller mit 2x Samsung 850Pro 2TB SSD im RAID1. Als Software läuft Proxmox VE 5.3-12.

Den RAID-Controller konnte ich als Ursache schon ausschließen, ich habe die SSD's jetzt schon jeweils einzeln an den OnBoard-Controller des Supermicro-Boards gehängt - gleiches Problem wieder. Wenn ich aus einer der VM's heraus Dateien mit mehreren GB über das Netzwerk kopiere, startet reproduzierbar nach dem Transfer von ca. 3GB der gesamte Host neu.

Im Syslog steht nichts Verdächtiges, lediglich folgende Zeile:
Apr 1 11:30:12 proxmox rrdcached[1666]: queue_thread_main: rrd_update_r (/var/lib/rrdcached/db/pve2-vm/109) failed with status -1. (/var/lib/rrdcached/db/pve2-vm/109: illegal attempt to update using time 15
54110733 when last update time is 1554110753 (minimum one second step))

Allerdings ist das nicht die VM, von der aus der Datentransfer lief. Das Problem tritt auch auf, wenn man Daten zwischen zwei VM's hin und her schiebt.

Seltsamerweise kann man eine Datensicherung einer kompletten VM mit 100 GB als Snapshot problemlos machen. Da stürzt nichts ab.

Hat jemand eine Idee, woran das liegen könnte? Ich bin fast so weit, den gesamten Server neu aufzusetzen.

Viele Grüße,
Yves Schlegel
 
Hallo zusammen,

unser Produktivsystem stürzt laut Log vom 3ware-Controller seit dem 31.03. ca. 2:49 Uhr relativ regelmäßig ab und startet neu. Als Ursache konnte ich jetzt mittlerweile große Dateitransfers (lesend) ausmachen.

Folgende Hardware ist im Einsatz: Intel Xeon E3-1270v6, 64 GB ECC RAM, 3ware 9750i4 RAID-Controller mit 2x Samsung 850Pro 2TB SSD im RAID1. Als Software läuft Proxmox VE 5.3-12.

Den RAID-Controller konnte ich als Ursache schon ausschließen, ich habe die SSD's jetzt schon jeweils einzeln an den OnBoard-Controller des Supermicro-Boards gehängt - gleiches Problem wieder. Wenn ich aus einer der VM's heraus Dateien mit mehreren GB über das Netzwerk kopiere, startet reproduzierbar nach dem Transfer von ca. 3GB der gesamte Host neu.

Im Syslog steht nichts Verdächtiges, lediglich folgende Zeile:
Apr 1 11:30:12 proxmox rrdcached[1666]: queue_thread_main: rrd_update_r (/var/lib/rrdcached/db/pve2-vm/109) failed with status -1. (/var/lib/rrdcached/db/pve2-vm/109: illegal attempt to update using time 15
54110733 when last update time is 1554110753 (minimum one second step))

Allerdings ist das nicht die VM, von der aus der Datentransfer lief. Das Problem tritt auch auf, wenn man Daten zwischen zwei VM's hin und her schiebt.

Seltsamerweise kann man eine Datensicherung einer kompletten VM mit 100 GB als Snapshot problemlos machen. Da stürzt nichts ab.

Hat jemand eine Idee, woran das liegen könnte? Ich bin fast so weit, den gesamten Server neu aufzusetzen.

Viele Grüße,
Yves Schlegel


Hallo zusammen,

Problem gefunden, Proxmox ist unschuldig. Eines der vier RAM-Modul war defekt.

Gruß, Yves
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!