[SOLVED] ZFS crash

nullu

New Member
Oct 28, 2020
23
1
1
43
Hallo,
meine Installation stürzt einfach ab sobald ich eine größere Menge an Daten bewege.
Ich habe auf ZFS installiert.
Die zpools sind i.O.
S.M.A.R.T meldet erstmal keine Fehler (habe die Festplatten noch nicht offline mit getestet)
Habe 3 Festplatten drin eine ssd500GB (rpool) eine sshd500GB (sshd) eine hdd600GB (hdd)

Code:
root@pve:~# zpool list
NAME    SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
hdd     596G  22.6G   573G        -         -     0%     3%  1.00x    ONLINE  -
rpool   464G  6.49G   458G        -         -     0%     1%  1.10x    ONLINE  -
sshd    464G   185G   279G        -         -     0%    39%  1.00x    ONLINE  -

Die SSD ist eine nagelneu EVO860
Vorher hatte ich eine Kingdian SSD ich dachte erst ich habe am falschen Ende gespart.

Wenn ich ein Backup von einem pbs restoren will - CRASH
Wenn ich ein Backup von der sshd restoren will - CRASH
Gestern abend ist es auch gecrasht als ich ein turnkey template herunter geladen habe.

Auf dem Rechner lief vorher esx 6.7u2 ohne Probleme (OS auf der Kingdian SSD), dort hatte ich dann einen proxmox als vm installiert (auf der sshd). Die VMs habe ich dann aus esx exportiert und wiederrum in den virtuellen proxmox importiert. Lief... bergab aber lief.

Jetzt habe ich nativ auf dem Blech installiert und es tut nicht mehr.

/var/log/faillog ist leer
kern.log ist auch weniger informativ
Code:
ov 11 22:15:53 pve kernel: [ 1449.574836] fwbr102i0: port 2(veth102i0) entered forwarding state
Nov 11 22:30:21 pve kernel: [    0.000000] Linux version 5.4.65-1-pve (build@pve) (gcc version 8.3.0 (Debian 8.3.0-6)) #1 SMP PVE 5.4.65-1 (Mon, 21 Sep 2020 15:40:22 +0200) ()

ich werde jetzt mal versuchen das Dingen absichtlich zu crashen und ein Bild vom Monitor posten.
 
Wie das nun mal so ist wenn man etwas in ein Forum schreibt:
Habe jetzt 3 VMs restored. 2 von sshd 1 vom pbs. Läuft immer noch.

Eine Veränderung habe ich vorher noch unternommen:
Weil ich ständig diese Meldungen hatte:
Code:
Nov 11 00:01:01 pve systemd[1]: Started Proxmox VE replication runner.
Nov 11 00:01:05 pve pvestatd[2958]: proxmox-backup-client failed: Error: error trying to connect: tcp connect error: No route to host (os error 113)
Nov 11 00:01:15 pve pvestatd[2958]: proxmox-backup-client failed: Error: error trying to connect: tcp connect error: No route to host (os error 113)
Nov 11 00:01:25 pve pvestatd[2958]: proxmox-backup-client failed: Error: error trying to connect: tcp connect error: No route to host (os error 113)
Nov 11 00:01:35 pve pvestatd[2958]: proxmox-backup-client failed: Error: error trying to connect: tcp connect error: No route to host (os error 113)
Nov 11 00:01:45 pve pvestatd[2958]: proxmox-backup-client failed: Error: error trying to connect: tcp connect error: No route to host (os error 113)
Nov 11 00:01:55 pve pvestatd[2958]: proxmox-backup-client failed: Error: error trying to connect: tcp connect error: No route to host (os error 113)
Nov 11 00:02:00 pve systemd[1]: Starting Proxmox VE replication runner...
Gestern Abend habe ich den pbs storage noch disabled. Vielleicht hat sich der proxmox-backup-client ja so "hochgeschaukelt" dass schliesslich alles crasht.
 
Last edited:
Jetzt habe ich endlich mal was ordentliches in dmesg gefunden.

Code:
[Thu Nov 12 16:47:44 2020] INFO: task txg_sync:1591 blocked for more than 120 seconds.
[Thu Nov 12 16:47:44 2020]       Tainted: P           O      5.4.65-1-pve #1
[Thu Nov 12 16:47:44 2020] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[Thu Nov 12 16:47:44 2020] txg_sync        D    0  1591      2 0x80004000
[Thu Nov 12 16:47:44 2020] Call Trace:
[Thu Nov 12 16:47:44 2020]  __schedule+0x2e6/0x6f0
[Thu Nov 12 16:47:44 2020]  schedule+0x33/0xa0
[Thu Nov 12 16:47:44 2020]  schedule_timeout+0x152/0x330
[Thu Nov 12 16:47:44 2020]  ? __next_timer_interrupt+0xd0/0xd0
[Thu Nov 12 16:47:44 2020]  io_schedule_timeout+0x1e/0x50
[Thu Nov 12 16:47:44 2020]  __cv_timedwait_common+0x12f/0x170 [spl]
[Thu Nov 12 16:47:44 2020]  ? wait_woken+0x80/0x80
[Thu Nov 12 16:47:44 2020]  __cv_timedwait_io+0x19/0x20 [spl]
[Thu Nov 12 16:47:44 2020]  zio_wait+0x130/0x270 [zfs]
[Thu Nov 12 16:47:44 2020]  ? _cond_resched+0x19/0x30
[Thu Nov 12 16:47:44 2020]  dsl_pool_sync+0xdc/0x500 [zfs]
[Thu Nov 12 16:47:44 2020]  spa_sync+0x5a7/0xfa0 [zfs]
[Thu Nov 12 16:47:44 2020]  ? _cond_resched+0x19/0x30
[Thu Nov 12 16:47:44 2020]  ? spa_txg_history_init_io+0x104/0x110 [zfs]
[Thu Nov 12 16:47:44 2020]  txg_sync_thread+0x2d9/0x4c0 [zfs]
[Thu Nov 12 16:47:44 2020]  ? txg_thread_exit.isra.12+0x60/0x60 [zfs]
[Thu Nov 12 16:47:44 2020]  thread_generic_wrapper+0x74/0x90 [spl]
[Thu Nov 12 16:47:44 2020]  kthread+0x120/0x140
[Thu Nov 12 16:47:44 2020]  ? __thread_exit+0x20/0x20 [spl]
[Thu Nov 12 16:47:44 2020]  ? kthread_park+0x90/0x90
[Thu Nov 12 16:47:44 2020]  ret_from_fork+0x35/0x40
[Thu Nov 12 17:13:55 2020] INFO: task txg_sync:1591 blocked for more than 120 seconds.
[Thu Nov 12 17:13:55 2020]       Tainted: P           O      5.4.65-1-pve #1
[Thu Nov 12 17:13:55 2020] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[Thu Nov 12 17:13:55 2020] txg_sync        D    0  1591      2 0x80004000
[Thu Nov 12 17:13:55 2020] Call Trace:
[Thu Nov 12 17:13:55 2020]  __schedule+0x2e6/0x6f0
[Thu Nov 12 17:13:55 2020]  schedule+0x33/0xa0
[Thu Nov 12 17:13:55 2020]  schedule_timeout+0x152/0x330
[Thu Nov 12 17:13:55 2020]  ? __next_timer_interrupt+0xd0/0xd0
[Thu Nov 12 17:13:55 2020]  io_schedule_timeout+0x1e/0x50
[Thu Nov 12 17:13:55 2020]  __cv_timedwait_common+0x12f/0x170 [spl]
[Thu Nov 12 17:13:55 2020]  ? wait_woken+0x80/0x80
[Thu Nov 12 17:13:55 2020]  __cv_timedwait_io+0x19/0x20 [spl]
[Thu Nov 12 17:13:55 2020]  zio_wait+0x130/0x270 [zfs]
[Thu Nov 12 17:13:55 2020]  ? _cond_resched+0x19/0x30
[Thu Nov 12 17:13:55 2020]  dsl_pool_sync+0xdc/0x500 [zfs]
[Thu Nov 12 17:13:55 2020]  spa_sync+0x5a7/0xfa0 [zfs]
[Thu Nov 12 17:13:55 2020]  ? _cond_resched+0x19/0x30
[Thu Nov 12 17:13:55 2020]  ? spa_txg_history_init_io+0x104/0x110 [zfs]
[Thu Nov 12 17:13:55 2020]  txg_sync_thread+0x2d9/0x4c0 [zfs]
[Thu Nov 12 17:13:55 2020]  ? txg_thread_exit.isra.12+0x60/0x60 [zfs]
[Thu Nov 12 17:13:55 2020]  thread_generic_wrapper+0x74/0x90 [spl]
[Thu Nov 12 17:13:55 2020]  kthread+0x120/0x140
[Thu Nov 12 17:13:55 2020]  ? __thread_exit+0x20/0x20 [spl]
[Thu Nov 12 17:13:55 2020]  ? kthread_park+0x90/0x90
[Thu Nov 12 17:13:55 2020]  ret_from_fork+0x35/0x40
 
Ich habe jetzt noch zfs_arc_max auf 2GB gemacht und noch dedup ausgeschaltet. Sobald Last drauf ist crasht das ZFS.
Ich gebe auf und installiere ext4/lvm
 
ata-Samsung_SSD_860_EVO_500GB_S4XBNJ0N604525L -> ../../sda
ata-ST500LM000-1EJ162-SSHD_W763SABW -> ../../sdb
ata-ST9640320AS_5WX0L99G -> ../../sdc

Die Samsung SSD ist an einem SATA-3 Port, die beiden anderen sind an einem SATA-2 Port.
 
Hallo,
ich habe mehrmals neuinstalliert jetzt läuft alles auf LVM. Auch das lief nicht stabil. Habe 2x4GB Riegel ausgebaut und seit dem läuft mein Server seit 16 Tage ohne Probleme durch.

War dann wohl ein RAM / Hardware Problem. Obwohl ich mit memtester im OS keine Fehler oder Abstürze produzieren konnte.

Naja...
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!