Problem BackupExec (B2D)2Tape Proxmox VE8

mhert · Sep 27, 2023

Hallo Leute,

wir betreiben einen eigenständigen Proxmox-Server mit einer Windows Server 2019 VM, in der BackupExec 20.6 installiert ist.

Die Systemplatte (C: ) der VM liegt auf einem ZFS-Storage mit 2 SSD's (Mirror).
Der Backupspeicher (D: ) liegt ebenfalls auf einem (eigenen) ZFS-Storage mit 2 HDD's (Mirror), die in der Windows-VM eingebunden sind.
Die Tapelibrary (HP) mit 2 Tapedrives wird per PCI-Passthrough (SAS-HBA) ebenfalls in der Windows-VM eingebunden, was soweit auch fehlerfrei funktioniert.

Backup2Disk läuft problemlos (Sicherung von Windows-VM's auf einem Proxmox-Cluster).

Nun passiert beim Kopieren der Backups (2Tape) irgendwann irgendwas und der Backupspeicher ist anscheinend nicht mehr (so richtig) verfügbar. Das kann bei 4GB sein
oder bei 400GB. Das Backup (1,8TB) wird auf jeden Fall nicht abgeschlossen und irgendwann wird der Plattenspeicher wg. EA-Fehlern von BackupExec "offline" geschaltet.
In der Ereignissanzeige sind dann unzählige Fehler zu finden.

Es fängt an mit (minütlich):

vioscsi 129 Ein Zurücksetzen auf Gerät "\Device\RaidPort2" wurde ausgegeben. (Obwohl das Backup an dieser Stelle trotzdem noch weiterzulaufen scheint).

gefolgt von:

Ntfs (Microsoft-Windows-Ntfs) 140 Die Daten konnten nicht in das Transaktionsprotokoll verschoben werden. Die Daten sind möglicherweise beschädigt:
Volume-ID: "D:", Gerätename: "\Device\HarddiskVolume4". (Das E/A-Gerät hat einen E/A-Fehler gemeldet.)

und:

Backup Exec 57600 Auf GerΣt "Plattenspeicher 0001" trat ein unbekannter Fehler auf.

Backup Exec 33808 Beim Verarbeiten eines Backup-to-Disk-Befehls ist ein Fehler aufgetreten. Drive: ReadMTFData() ReadFile failed (D:\BEData\B2D000379.bkf)
3773858. Error=1117

Backup Exec 58057 Backup Exec-Meldung: Medienfehler (Server: "ISER-BK02X") Der Datenträger ist offline.

Backup Exec 58053 Backup Exec-Meldung: Speicherfehler (Server: "ISER-BK02X") Der Gerätestatus wurde aufgrund eines E/A-Fehlers auf offline eingestellt.

bis zu:

Disk 153 Der E/A-Vorgang an der logischen Blockadresse "0x39de0460" für den Datenträger "1" (PDO-Name: \Device\00000027) wurde wiederholt.

Ich habe bisher alle Gerätetreiber des SAS-HBA, der Library, der Tape-Drives sowie Proxmox und Windows aktualisiert. Außerdem habe ich mit mehreren
Versionen des VirtIO SCSI-Passthrough Treibers (100.93.104.24000 sowie 100.93.104.20400, weil ich gelesen habe, die neueren hätten ein Problem) rumgespielt, aber
insgesamt ist die Situation unverändert.

Was ich komisch daran finde, ist die Tatsache, dass der/die Fehler ab einem Zeitpunkt X auftreten und nicht sofort zu Beginn des Backups. Und wie schon erwähnt läuft
die Backup2Disk-Sicherung (auf den Plattenspeicher) problemlos - erst bei der Kopie auf Tape gibt's diese Probleme.

Im Geräte-Manager der VM sieht es folgendermaßen aus:

Die Hardware-Konfiguration der VM:

Disks

ZFS

Hat jemand einen Tipp, an was das liegen kann bzw. wie man es beheben könnte?

Gruß, Oliver

mhert · Sep 27, 2023

Noch was vergessen:

Async IO habe ich (für die Datenplatte) auf "native" geändert, weil ich da was wg. "io_uring" gelesen habe. Anfänglich sah es auch tatsächlich so aus,
wie wenn die Geschwindigkeit der Bandsicherung höher wäre, aber im Endeffekt dann wieder die gleichen Fehler.

dcsapak · Sep 27, 2023

ist währenddessen irgednwas im host syslog/journal zu sehen?

mhert · Sep 27, 2023

Ich finde darin nichts spezifisches, was das problem betreffen könnte... ich glaube der host bekommt davon gar nichts mit...

dcsapak · Sep 27, 2023

kannst du trotzdem das journal post ungefähr zu der zeit wenn der fehler auftritt? (vielleicht sehen wir ja was, das doch relevant ist)

mhert · Sep 27, 2023

Der Server wurde um kurz nach 13.00 Uhr neu gestartet (26.09.23) und das Backup (Disk)2Tape startete um 13.14 Uhr.

Um 13.19 Uhr fangen dann die Fehler an... (aber das Backup scheint trotzdem zu laufen)

Um 15:13 dann die ersten Bexec-Fehler:

Ungefähr zum gleichen Zeitpunkt auch NTFS-Fehlermeldungen:

Um 16:17 wurde die VM hart "gekilled" weil sich Windows in dem Zustand nicht herunterfahren / neu starten ließ...

mhert · Sep 27, 2023

Kann den Code wg. der Länge nicht posten... ist im Anhang...

Ausgabe journalctl -b (nicht von den Fehlern "prox11 kernel: sd 11:0:0:0: [sde]" verwirren lassen... da hängt noch ne HDD drin, die anscheinend nicht richtig erkannt wird...)

Falk R. · Sep 27, 2023

Wenn ich das richtig sehe hast du einen ZFS Pool aus 2 HDDs für die Backups. Hast du dir mal die Smart Werte angeschaut? Eventuell beim B2T auch hohen IO Delay?
Ich würde vermuten, dass die HDDs mit dem Random IO nicht klar kommen. Am Anfang war das ja mal Sequenzieller IO, aber durch das COW hast du mit der Zeit immer mehr Random.

mhert · Sep 27, 2023

Sorry. Kann dir nicht ganz folgen...

Was hat die Kuh damit zu tun? ;-)

Die Platten sind neu und die Smartwerte entsprechend top.

Was kann man ändern?

Ich wollte auch schon die Platten direkt an die VM durchreichen (also ohne ZFS-Basis). Ist bisher aber aus anderen Gründen gescheitert.

Wäre das ein vielversprechender Ansatz?

mhert · Sep 27, 2023

Im Vergleich zum Cluster ist der IO Delay definitv höher, allerdings sind dort durchweg Enterprise SSD's verbaut. Der Vergleich hinkt also...

Generell habe ich aber tatsächlich einen höheren Durchsatz erwartet...

Falk R. · Sep 27, 2023

COW steht für Copy on Write.
Es ist allgemein bekannt, das HDDs mit ZFS recht langsam werden und ab 80% Füllstand fast unbenutzbar.
Ein durchreichen an die VM sollte deutlich performanter sein.

dcsapak · Sep 28, 2023

kannst du mal die gesamte vm config ( qm config ID) und die storage config posten (/etc/pve/storage.cfg)

was ist denn der unterschied von rpool-data vs local-zfs ?

mhert · Sep 29, 2023


root@prox11:~# qm config 101
agent: 1
bios: seabios
boot: order=scsi0;ide2
cores: 4
cpu: host
hostpci0: 0000:19:00,pcie=1,rombar=0
ide2: local:iso/virtio-win-0.1.240.iso,media=cdrom,size=612812K
machine: pc-q35-8.0
memory: 16384
meta: creation-qemu=8.0.2,ctime=1691603826
name: xxx
net0: virtio=7A:DC:F9:F0:F3:1C,bridge=vmbr0,firewall=1
net1: virtio=56:62:40:96:4F:21,bridge=vmbr1,firewall=1
numa: 1
onboot: 1
ostype: win10
scsi0: local-zfs:vm-101-disk-0,backup=0,discard=on,iothread=1,size=100G,ssd=1
scsi1: rpool-data:vm-101-disk-0,aio=native,backup=0,iothread=1,size=10000G
scsihw: virtio-scsi-single
smbios1: uuid=a3bd94b4-abea-470e-96f3-ca3b64ea4494
sockets: 2
vmgenid: 058475bc-e3e2-4bf5-835f-a8a839efecf7


root@prox11:~# cat /etc/pve/storage.cfg
dir: local
        path /var/lib/vz
        content iso,backup,vztmpl

zfspool: local-zfs
        pool rpool/data
        content rootdir,images
        sparse 1

zfspool: rpool-data
        pool rpool-data
        content rootdir,images
        mountpoint /rpool-data
        nodes prox11

mhert · Sep 29, 2023

Wie gesagt Backup2Disk läuft problemlos (OK. Durchsatz ist relativ gering...).
Ich habe jetzt mal einen Verify-Job (B2D) losgetreten und der läuft fehlerfrei (auch Ereignisanzeige) mit einem Durchsatz > 200 MB/s.

Nur bei Backup2Tape aus dem Storage treten die Fehler auf. Egal ob direkt nach B2D (also im gleichen Job) oder händisch angestoßen.
Ist ja aber eigentlich auch nur lesen, oder? Verify habe ich bei den differentiellen Backups deaktiviert.

Wenn die Library einen Fehler schmeißen würde oder der HBA oder die Passthrough-Geschichte, könnte ich das ja noch verstehen...

mhert · Sep 29, 2023

Unterschied der Pools sind die verschiedenen Plattenstapel (2x SSD vs. 2x HDD). Sind aber aber beide an der gleichen Backplane angeschlossen.

Siehe Screenshot oben...

Falk R. · Sep 29, 2023

Hi, ich habe gerade bei einem Kunden ebenfalls Probleme mit einer VM gehabt. Da ist ein SQL drauf, der massive Reads verursacht. Jedes mal wenn viel gelesen wurde, ist der SQL gecrasht und im Eventlog waren die gleichen Meldungen wie bei dir.
Wir haben es gelöst, indem wir die Platten von SCSI auf VirtIO Block geändert haben. Jetzt macht die VM statt 700-800 MB Read, bis zu 1,5 GB/s Read. Da scheint irgend etwas im argen zu sein mit den aktuellen Treibern für Windows.

mhert · Sep 29, 2023

Cool. Das werde ich mal testen... Danke für den Tip.

mhert · Sep 29, 2023

Habe eben 2 weitere Platten eingebunden (an VM durchgereicht) und per Windows-Funktion (Server-Manager) ein Stripeset gebastelt. Danach habe ich per BackupExec eine Kopie eines Vollbackups von Festplattenspeicher 1 (Proxmox ZFS) auf Festplattenspeicher 2 (Windows VM Stripeset) durchgeführt. Dabei wurden bei 1,9TB Datenvolumen 0 (!) Fehler protokolliert und das Ganze lief mit Top-Speed.

Danach habe ich eine weitere Kopie gestartet: Vom Plattenspeicher 2 (Windows VM Stripeset) auf Band und siehe da: Nach wenigen GB dasselbe
Problem wie vorher vom ZFS-Stapel...

Muß also das von dir erwähnte Problem mit dem VirtIO-Treiber sein...

Werde jetzt mal auf VirtIO-Block umstellen und nochmal testen...

mhert · Sep 29, 2023

Full Stop!

Habe gerade gemerkt, daß das auch keinen Sinn macht...

Er kopiert klaglos mit diesem Treiber Daten von der virtuellen Disk (vom darunterliegenenden ZFS) auf die durchgereichten Platten...
Und davon aber nicht auf Tape????!

mhert · Sep 29, 2023

Die Devices benutzen ja alle denselben Treiber...

Problem BackupExec (B2D)2Tape Proxmox VE8

Well-Known Member

Well-Known Member

Proxmox Staff Member

Well-Known Member

Proxmox Staff Member

Well-Known Member

Well-Known Member

Attachments

Famous Member

Well-Known Member

Well-Known Member

Famous Member

Proxmox Staff Member

Well-Known Member

Well-Known Member

Well-Known Member

Famous Member

Well-Known Member

Well-Known Member

Well-Known Member

Well-Known Member