PBS not listing any Snapshots/ Backups

felixheilig

Member
Jul 6, 2021
14
0
6
27
Hallo,
hat mir jemand eine Idee:

das auflisten meiner Backups funktioniert nicht.
Auf PBS Gui Seite lädt beim klick auf den Namespace nichts.
1746529186411.png

auf PVE Seite als Storage eigebunden bekommen ich "Connection timed out (596)"

1746529174897.png
Im Terminal bekomme ich mit "/usr/sbin/pvesm list kaminocluter-pbs-01"
als Ergebnis

"error listing snapshots - 500 read timeout"

Der Storage ist ein ZRAID-2 dem es eigentlich gut geht:
1746529362103.png

Ein Speedtest auf dem Storage via Terminal sieht eigentlich auch in Ordnung aus:
Code:
root@kaminocluter-pbs-01:/mnt/KaminoBackupPVEStorage# ./storage_speedtest.sh
Starting speed test in /mnt/KaminoBackupPVEStorage
Test file size: 1G
----------------------------------------
Testing write speed...
 754 MB/s
Write test took 2 seconds
----------------------------------------
./storage_speedtest.sh: line 54: /proc/sys/vm/drop_caches: Read-only file system
Need sudo to clear cache
Testing read speed...
 4.2 GB/s
Read test took 0 seconds
----------------------------------------
Testing IOPs...
random-write: (g=0): rw=randwrite, bs=(R) 4096B-4096B, (W) 4096B-4096B, (T) 4096B-4096B, ioengine=posixaio, iodepth=1
fio-3.33
Starting 1 process
Jobs: 1 (f=1): [w(1)][100.0%][w=4588KiB/s][w=1147 IOPS][eta 00m:00s]
random-write: (groupid=0, jobs=1): err= 0: pid=1552: Tue May  6 13:03:05 2025
  write: IOPS=605, BW=2420KiB/s (2478kB/s)(23.8MiB/10076msec); 0 zone resets
    slat (nsec): min=822, max=71224, avg=1239.86, stdev=1019.67
    clat (usec): min=16, max=316503, avg=1646.28, stdev=8021.72
     lat (usec): min=17, max=316504, avg=1647.52, stdev=8021.80
    clat percentiles (usec):
     |  1.00th=[    19],  5.00th=[    21], 10.00th=[   169], 20.00th=[   186],
     | 30.00th=[   196], 40.00th=[   210], 50.00th=[   229], 60.00th=[   262],
     | 70.00th=[   289], 80.00th=[   359], 90.00th=[  5145], 95.00th=[  9634],
     | 99.00th=[ 19006], 99.50th=[ 22152], 99.90th=[ 42206], 99.95th=[225444],
     | 99.99th=[316670]
   bw (  KiB/s): min=  320, max= 4744, per=100.00%, avg=2438.00, stdev=1433.72, samples=20
   iops        : min=   80, max= 1186, avg=609.50, stdev=358.43, samples=20
  lat (usec)   : 20=4.31%, 50=4.53%, 250=47.95%, 500=26.89%, 750=1.64%
  lat (usec)   : 1000=0.69%
  lat (msec)   : 2=1.35%, 4=1.67%, 10=6.18%, 20=4.00%, 50=0.71%
  lat (msec)   : 100=0.02%, 250=0.02%, 500=0.05%
  cpu          : usr=0.29%, sys=0.17%, ctx=6099, majf=0, minf=23
  IO depths    : 1=100.0%, 2=0.0%, 4=0.0%, 8=0.0%, 16=0.0%, 32=0.0%, >=64=0.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
     issued rwts: total=0,6096,0,0 short=0,0,0,0 dropped=0,0,0,0
     latency   : target=0, window=0, percentile=100.00%, depth=1

Run status group 0 (all jobs):
  WRITE: bw=2420KiB/s (2478kB/s), 2420KiB/s-2420KiB/s (2478kB/s-2478kB/s), io=23.8MiB (25.0MB), run=10076-10076msec
Cleaning up...
----------------------------------------
Speed test completed!
Filesystem information:
Filesystem                                Size  Used Avail Use% Mounted on
KaminoBackupPVEStorage/subvol-901-disk-0  110T   14T   96T  13% /mnt/KaminoBackupPVEStorage

Ich wäre für Ideen sehr Dankbar.
 
Hat das denn schon jemals funktioniert? Wenn ja, gab es Änderungen, die zu dem Verhalten führen konnten?

RaidZ2 mit so vielen großen Platten... na ja das ist halt auch nicht die Wucht. Und das Resilvern, wenns mal so weit ist, das wird wohl auch dauern. Aber gut, sofern das für dich passt, ist's ok.

Da hätte auf jeden Fall ein "Special Device" Sinn gemacht: https://pbs.proxmox.com/docs/sysadmin.html#zfs-special-device

Wie ist denn die allgemeine Last am Server? Laufen vielleicht andere Prozesse die, die Storage gerade so verausgaben, dass es nicht gut genug reagiert?

Code:
top

und

Code:
head /proc/pressure/*
 
  • Like
Reactions: UdoB and Johannes S
Ich würde behaupten die Büchse langweilt sich zu tode:

(H)top:

1746532463267.png

1746532524705.png


Code:
==> /proc/pressure/cpu <==
some avg10=0.00 avg60=0.00 avg300=0.00 total=2678385292
full avg10=0.00 avg60=0.00 avg300=0.00 total=0

==> /proc/pressure/io <==
some avg10=3.65 avg60=3.54 avg300=4.14 total=124803196289
full avg10=3.65 avg60=3.51 avg300=4.07 total=123462524193

==> /proc/pressure/memory <==
some avg10=0.00 avg60=0.00 avg300=0.00 total=25061
full avg10=0.00 avg60=0.00 avg300=0.00 total=23810
 
Naja die CPU-Load ist nicht so relevant wie die IOPS auf dem Datenspeicher, RAIDZ und HDDs sind für sich schon nicht optimal, die Kombination macht es nicht besser.
 
  • Like
Reactions: UdoB and fireon
danke für dne hinweis mit dem "ZFS special device". Mach das hier Sinn ? Mein Verstädnis war, dass wenn ich genug RAM zur Verfügung habe ( sind ~120 GB) mit ein special device nicht viel bringt. Oder bin ich hier auf dem Holzweg ?

Direkt möchte ich gestehen, dass der Backupserver ein LXC ist, das ZFS Raid ist auf PVE Ebene erstellt und als Mountpoint in den LXC eingebunden.

Noch habe ich die Möglichkeiten alles weg zuschmeißen und neu zu bauen.
Ich bin offen für jede Idee.
Lieber kein ZFS nutzen ?
 
Ich würde behaupten die Büchse langweilt sich zu tode:
Ja das stimmt.

Direkt möchte ich gestehen, dass der Backupserver ein LXC ist, das ZFS Raid ist auf PVE Ebene erstellt und als Mountpoint in den LXC eingebunden.
Ich würde keinen Grund sehen, warum man das machen möchte. Das macht es nur komplexer. PBS sollte physisch installiert werden, keine VM und kein CT. Mit lokalem schnellen Storage. Und ja, ZFS ist grundsätzlich ne sehr feine Sache.

Hat das denn schon jemals funktioniert? Wenn ja, gab es Änderungen, die zu dem Verhalten führen konnten?
Ich antworte mir selbst und vermute mal das es bis jetzt noch nicht funktioniert hat, weil du einen unprivilegierten CT erstellt hast du die Rechte vielleicht nicht passen? → Nur ein Schuss ins Blaue.

Noch habe ich die Möglichkeiten alles weg zuschmeißen und neu zu bauen.
Meine Empfehlung ist lokal zu installieren inkl. deinem lokalen Zpool + Special Device. Ist sicher keine Rakete, aber damit sollte es sich einigermaßen vernünftig bewegen. Wesentlich schneller (sofern es dein Speicherbedarf erlaubt, wäre statt einem RaidZ2 ein Raid10. Aber das weist ja sicher schon ;) .
 
  • Like
Reactions: Johannes S and UdoB
das auflisten meiner Backups funktioniert nicht.
RaidZ2 auf ausschließlich Blech? Worst case ;-)

Ich hatte das "damals" auch mal so ähnlich gemacht. Mit demselben Resultat. Die Story habe ich mittlerweile mehrfach hier gepostet, die neueste Version: