Hallo zusammen,
unser Produktivsystem stürzt laut Log vom 3ware-Controller seit dem 31.03. ca. 2:49 Uhr relativ regelmäßig ab und startet neu. Als Ursache konnte ich jetzt mittlerweile große Dateitransfers (lesend) ausmachen.
Folgende Hardware ist im Einsatz: Intel Xeon E3-1270v6, 64 GB ECC RAM, 3ware 9750i4 RAID-Controller mit 2x Samsung 850Pro 2TB SSD im RAID1. Als Software läuft Proxmox VE 5.3-12.
Den RAID-Controller konnte ich als Ursache schon ausschließen, ich habe die SSD's jetzt schon jeweils einzeln an den OnBoard-Controller des Supermicro-Boards gehängt - gleiches Problem wieder. Wenn ich aus einer der VM's heraus Dateien mit mehreren GB über das Netzwerk kopiere, startet reproduzierbar nach dem Transfer von ca. 3GB der gesamte Host neu.
Im Syslog steht nichts Verdächtiges, lediglich folgende Zeile:
Apr 1 11:30:12 proxmox rrdcached[1666]: queue_thread_main: rrd_update_r (/var/lib/rrdcached/db/pve2-vm/109) failed with status -1. (/var/lib/rrdcached/db/pve2-vm/109: illegal attempt to update using time 15
54110733 when last update time is 1554110753 (minimum one second step))
Allerdings ist das nicht die VM, von der aus der Datentransfer lief. Das Problem tritt auch auf, wenn man Daten zwischen zwei VM's hin und her schiebt.
Seltsamerweise kann man eine Datensicherung einer kompletten VM mit 100 GB als Snapshot problemlos machen. Da stürzt nichts ab.
Hat jemand eine Idee, woran das liegen könnte? Ich bin fast so weit, den gesamten Server neu aufzusetzen.
Viele Grüße,
Yves Schlegel
unser Produktivsystem stürzt laut Log vom 3ware-Controller seit dem 31.03. ca. 2:49 Uhr relativ regelmäßig ab und startet neu. Als Ursache konnte ich jetzt mittlerweile große Dateitransfers (lesend) ausmachen.
Folgende Hardware ist im Einsatz: Intel Xeon E3-1270v6, 64 GB ECC RAM, 3ware 9750i4 RAID-Controller mit 2x Samsung 850Pro 2TB SSD im RAID1. Als Software läuft Proxmox VE 5.3-12.
Den RAID-Controller konnte ich als Ursache schon ausschließen, ich habe die SSD's jetzt schon jeweils einzeln an den OnBoard-Controller des Supermicro-Boards gehängt - gleiches Problem wieder. Wenn ich aus einer der VM's heraus Dateien mit mehreren GB über das Netzwerk kopiere, startet reproduzierbar nach dem Transfer von ca. 3GB der gesamte Host neu.
Im Syslog steht nichts Verdächtiges, lediglich folgende Zeile:
Apr 1 11:30:12 proxmox rrdcached[1666]: queue_thread_main: rrd_update_r (/var/lib/rrdcached/db/pve2-vm/109) failed with status -1. (/var/lib/rrdcached/db/pve2-vm/109: illegal attempt to update using time 15
54110733 when last update time is 1554110753 (minimum one second step))
Allerdings ist das nicht die VM, von der aus der Datentransfer lief. Das Problem tritt auch auf, wenn man Daten zwischen zwei VM's hin und her schiebt.
Seltsamerweise kann man eine Datensicherung einer kompletten VM mit 100 GB als Snapshot problemlos machen. Da stürzt nichts ab.
Hat jemand eine Idee, woran das liegen könnte? Ich bin fast so weit, den gesamten Server neu aufzusetzen.
Viele Grüße,
Yves Schlegel