[SOLVED] Fehler im Proxmox Backup

Azrael14

Member
Jan 16, 2022
9
0
6
42
Hallo Zusammen,



ich habe seit ein paar Tagen (seit dem 28.04.) Probleme mit dem Backup einiger meiner VMs.

Am 27. Liefen die Backups noch problemlos.


Plötzlich tauchten jedoch Fehler auf, dazu muss ich sagen, dass ich die Tage irgendwann den Proxmox aktualisiert hatte (über die GUI eben die Updates eingespielt). Leider kann ich gerade nicht genau sagen, wann das war. Ich schaue natürlich gerne nach, falls mir jemand sagen kann, wo ich das ggf. finde.



Betroffen sind aktuell nur VMs, also keine CTs. Und auch nicht alle VMs.

Die Fehler lauten:



job failed with err -61 - No data available

job failed with err -125 - Operation canceled


Der Fehler „125“ betrifft die einzige Windows Maschine auf dem Proxmox. Dieser tritt auf egal ob sich die Maschine im eingeschalteten oder im ausgeschalteten Zustand befindet.


PXE.png


Die IDs 1xx sind alle CTs, 2xx und 5xx sind alles VMs.


Ich hoffe ihr habt Ideen für mich. Leider finde ich unter den Fehler nicht so viel im Internet :-(.

Zwischenzeitlich hatte ich noch diesen Fehler dazu (ID: 104)
Dieser war am nächsten Tag jedoch wieder verschwunden und das Backup des CT läuft wieder.

PXE.png



Vielen Dank & viele Grüße

Alexander
 
Last edited:
Hast Du den PVE nach dem Update einmal neu gestartet?
 
Hallo,
die Infos zum letzte Update sollten in /var/log/apt/history.log zu finden sein. Könntest Du bitte die Ausgabe von pveversion -v und qm config <ID> von ein paar der VMs posten? Der Log vom Backup Task selbst wäre auch interessant.
 
@Huch

danke für Deine Rückmeldung.
Ja bereits 2x. Es hat sich leider nichts verändert.


@Fabian_E

Auch Dir vielen Dank für die Rückmeldung.

Code:
/var/log/apt/history.log
ist leider komplett leer.

Leider ist heute auch der Container mit der ID 104 wieder Fehlerhaft.
Das Log hänge ich Dir an.

Hier die gewünschten Ausgaben:

pveversion -v.png



qm config ID.png




Vielen Dank und viele Grüße
 

Attachments

@Huch

danke für Deine Rückmeldung.
Ja bereits 2x. Es hat sich leider nichts verändert.


@Fabian_E

Auch Dir vielen Dank für die Rückmeldung.

Code:
/var/log/apt/history.log
ist leider komplett leer.
Was ist mit /var/log/apt/history.log.1.gz, etc.

Leider ist heute auch der Container mit der ID 104 wieder Fehlerhaft.
Ist es immer diese Datei/Meldung
Code:
tar: ./var/lib/postgresql/11/main/base/16385/94466: File shrank by 6717440 bytes; padding with zeros
wenn es fehlschlägt?

Das Log hänge ich Dir an.

Hier die gewünschten Ausgaben:

View attachment 36479



View attachment 36480




Vielen Dank und viele Grüße
Gibt es irgendwelche Meldungen in /var/log/syslog während die Backups laufen bzw. fehlschlagen? Bitte auch mal den Thin Pool und die darunter liegende Hardware überprüfen.
 
Hallo @Fabian_E



die history.log (aus history.log.1.gz) habe ich Dir angehangen.

Das Upgrade vom 26.03. könnte tatsächlich (leider) Zeitlich der Auslöser des Verhaltens sein.





Die Fehler sind nicht immer gleich, aber wiederholen sich.

Tatsächlich mach ich taglich 2 Backups. 1x 4 Uhr morgens auf den PXE Backup Server (als VM) an welche eine externe Festplatte durchgereicht ist.

Und als 2te Sicherung um 6 Uhr morgens auf eine weitere Externe HDD (Habe mal gelesen es gibt Probleme die erste Sicherung von 4 Uhr wiederherzustellen, falls es mal Probleme mit dem PXE Backup Server gibt).





Interessant finde ich das die Sicherungen völlig seltsam sporadisch gehen oder nicht gehen. Es sind ein paar Maschinen, die immer Auf die fehlschlagen, andere gehen mal und eben mal nicht.

Gern kann ich alle Logs hochladen, will euch aber nicht zuspammen. Falls gewünscht reiche ich diese aber gerne nach.



Begonnen hat es bei den VMs mit:

Code:
job failed with err -61 - No data available
job failed with err -125 - Operation canceled


Anschließend kam


Dieser bei dem CT mit der ID 104 dazu:

Code:
command 'set -o pipefail && tar cpf - --totals --one-file-system -p --sparse --numeric-owner --acls --xattrs '--xattrs-include=user.*' '--xattrs-include=security.capability' '--warning=no-file-ignored' '--warning=no-xattr-write' --one-file-system '--warning=no-file-ignored' '--directory=/mnt/pve/Intern256/dump/vzdump-lxc-104-2022_04_30-20_15_31.tmp' ./etc/vzdump/pct.conf ./etc/vzdump/pct.fw '--directory=/mnt/vzsnap0' --no-anchored '--exclude=lost+found' --anchored '--exclude=./tmp/?*' '--exclude=./var/tmp/?*' '--exclude=./var/run/?*.pid' ./ | gzip --rsyncable >/mnt/pve/Intern256/dump/vzdump-lxc-104-2022_04_30-20_15_31.tar.dat' failed: exit code 1



dieser verschwand dann wieder (von selbst)


dann hatte ich beim CT ID 106 diesen Fehler:

Code:
command '/usr/bin/proxmox-backup-client backup '--crypt-mode=none' pct.conf:/var/tmp/vzdumptmp275898_106/etc/vzdump/pct.conf root.pxar:/mnt/vzsnap0 --include-dev /mnt/vzsnap0/./ --skip-lost-and-found '--exclude=/tmp/?*' '--exclude=/var/tmp/?*' '--exclude=/var/run/?*.pid' --backup-type ct --backup-id 106 --backup-time 1651543441 --repository root@pam@192.168.0.238:ExtHDD2TB' failed: exit code 255


wo er wieder verschwand und dann auf dem CT mit ID 104 auftrat.

Dann ein Backup in welchem die CTs mit den IDs 103, 104 und 105 den Fehler


Code:
command '/usr/bin/proxmox-backup-client backup '--crypt-mode=none' pct.conf:/var/tmp/vzdumptmp3598194_103/etc/vzdump/pct.conf root.pxar:/mnt/vzsnap0 --include-dev /mnt/vzsnap0/./ --skip-lost-and-found '--exclude=/tmp/?*' '--exclude=/var/tmp/?*' '--exclude=/var/run/?*.pid' --backup-type ct --backup-id 103 --backup-time 1651629673 --repository root@pam@192.168.0.238:ExtHDD2TB' failed: exit code 255


Anschließend funktionierte das Backup von 103 und 105 wieder. ID 104 hatte wieder den Fehler:


Code:
command 'set -o pipefail && tar cpf - --totals --one-file-system -p --sparse --numeric-owner --acls --xattrs '--xattrs-include=user.*' '--xattrs-include=security.capability' '--warning=no-file-ignored' '--warning=no-xattr-write' --one-file-system '--warning=no-file-ignored' '--directory=/mnt/pve/ExtSSD512/dump/vzdump-lxc-104-2022_05_04-06_02_00.tmp' ./etc/vzdump/pct.conf ./etc/vzdump/pct.fw '--directory=/mnt/vzsnap0' --no-anchored '--exclude=lost+found' --anchored '--exclude=./tmp/?*' '--exclude=./var/tmp/?*' '--exclude=./var/run/?*.pid' ./ | zstd --rsyncable '--threads=1' >/mnt/pve/ExtSSD512/dump/vzdump-lxc-104-2022_05_04-06_02_00.tar.dat' failed: exit code 1



Die Fehler der VMs bleiben gleich über den gesamten Zeitraum.


Ist es immer diese Datei/Meldung
Code:
tar: ./var/lib/postgresql/11/main/base/16385/94466: File shrank by 6717440 bytes; padding with zeros
wenn es fehlschlägt?

Nein es ist nicht immer die gleiche Datei.

Im Backup von heute Morgen waren es folgende Meldungen:


Code:
104: 2022-05-04 06:02:00 INFO: Starting Backup of VM 104 (lxc)
104: 2022-05-04 06:02:00 INFO: status = running
104: 2022-05-04 06:02:00 INFO: CT Name: PostgresDB
104: 2022-05-04 06:02:00 INFO: including mount point rootfs ('/') in backup
104: 2022-05-04 06:02:00 INFO: backup mode: snapshot
104: 2022-05-04 06:02:00 INFO: ionice priority: 7
104: 2022-05-04 06:02:00 INFO: create storage snapshot 'vzdump'
104: 2022-05-04 06:02:01 INFO: creating vzdump archive '/mnt/pve/ExtSSD512/dump/vzdump-lxc-104-2022_05_04-06_02_00.tar.zst'
104: 2022-05-04 06:02:48 INFO: tar: ./var/lib/postgresql/11/main/base/16385/148067: File shrank by 2220032 bytes; padding with zeros
104: 2022-05-04 06:03:09 INFO: tar: ./var/lib/postgresql/11/main/base/16385/131989: File shrank by 52645888 bytes; padding with zeros
104: 2022-05-04 06:03:22 INFO: tar: ./var/lib/postgresql/11/main/base/16385/142466: File shrank by 14880768 bytes; padding with zeros
104: 2022-05-04 06:04:04 INFO: tar: ./var/lib/postgresql/11/main/base/16385/90586: File shrank by 7774208 bytes; padding with zeros
104: 2022-05-04 06:04:15 INFO: Total bytes written: 30287482880 (29GiB, 216MiB/s)
104: 2022-05-04 06:04:16 INFO: cleanup temporary 'vzdump' snapshot
104: 2022-05-04 06:04:16 ERROR: Backup of VM 104 failed - command 'set -o pipefail && tar cpf - --totals --one-file-system -p --sparse --numeric-owner --acls --xattrs '--xattrs-include=user.*' '--xattrs-include=security.capability' '--warning=no-file-ignored' '--warning=no-xattr-write' --one-file-system '--warning=no-file-ignored' '--directory=/mnt/pve/ExtSSD512/dump/vzdump-lxc-104-2022_05_04-06_02_00.tmp' ./etc/vzdump/pct.conf ./etc/vzdump/pct.fw '--directory=/mnt/vzsnap0' --no-anchored '--exclude=lost+found' --anchored '--exclude=./tmp/?*' '--exclude=./var/tmp/?*' '--exclude=./var/run/?*.pid' ./ | zstd --rsyncable '--threads=1' >/mnt/pve/ExtSSD512/dump/vzdump-lxc-104-2022_05_04-06_02_00.tar.dat' failed: exit code 1


Gibt es irgendwelche Meldungen in /var/log/syslog während die Backups laufen bzw. fehlschlagen?

Hier der Auszug aus dem Syslog im Vergleich zum Backup Log

Das geschieht beim Backup von ID 104 in der Syslog:


Code:
tail -f  /var/log/syslog
May  4 22:49:01 AzProxmox pvedaemon[875]: worker 2007349 started
May  4 22:49:09 AzProxmox systemd[1]: Started Session 53627 of user root.
May  4 22:49:09 AzProxmox systemd[1]: session-53627.scope: Succeeded.
May  4 22:49:38 AzProxmox pvedaemon[1933171]: <root@pam> successful auth for user 'root@pam'
May  4 22:49:54 AzProxmox systemd[1]: Started Session 53632 of user root.
May  4 22:49:54 AzProxmox systemd[1]: session-53632.scope: Succeeded.
May  4 22:49:59 AzProxmox systemd[1]: Started Session 53633 of user root.
May  4 22:49:59 AzProxmox systemd[1]: session-53633.scope: Succeeded.
May  4 22:50:09 AzProxmox systemd[1]: Started Session 53635 of user root.
May  4 22:50:09 AzProxmox systemd[1]: session-53635.scope: Succeeded.
May  4 22:50:36 AzProxmox pvedaemon[2011225]: starting lxc termproxy UPID:AzProxmox:001EB059:024A4416:6272E71C:vncproxy:104:root@pam:
May  4 22:50:36 AzProxmox pvedaemon[1933171]: <root@pam> starting task UPID:AzProxmox:001EB059:024A4416:6272E71C:vncproxy:104:root@pam:
May  4 22:50:37 AzProxmox pvedaemon[1933794]: <root@pam> successful auth for user 'root@pam'
May  4 22:50:41 AzProxmox pvedaemon[1933171]: <root@pam> end task UPID:AzProxmox:001EB059:024A4416:6272E71C:vncproxy:104:root@pam: OK
May  4 22:50:54 AzProxmox systemd[1]: Started Session 53640 of user root.
May  4 22:50:54 AzProxmox systemd[1]: session-53640.scope: Succeeded.
May  4 22:50:56 AzProxmox pvedaemon[1933171]: <root@pam> starting task UPID:AzProxmox:001EB32A:024A4B90:6272E730:vzdump:104:root@pam:
May  4 22:50:56 AzProxmox pvedaemon[2011946]: INFO: starting new backup job: vzdump 104 --storage Prxmx-Backup-ExtHDD2TB --remove 0 --mode snapshot --node AzProxmox
May  4 22:50:56 AzProxmox pvedaemon[2011946]: INFO: Starting Backup of VM 104 (lxc)
May  4 22:50:56 AzProxmox dmeventd[450]: No longer monitoring thin pool prxmx_vg-data_lv-tpool.
May  4 22:50:56 AzProxmox lvm[450]: Monitoring thin pool prxmx_vg-data_lv-tpool.
May  4 22:50:59 AzProxmox systemd[1]: Started Session 53641 of user root.
May  4 22:50:59 AzProxmox systemd[1]: session-53641.scope: Succeeded.
May  4 22:51:01 AzProxmox pvedaemon[1933794]: worker exit
May  4 22:51:01 AzProxmox pvedaemon[875]: worker 1933794 finished
May  4 22:51:01 AzProxmox pvedaemon[875]: starting 1 worker(s)
May  4 22:51:01 AzProxmox pvedaemon[875]: worker 2012103 started
May  4 22:51:02 AzProxmox kernel: [384239.024857] blk_update_request: critical medium error, dev nvme0n1, sector 151851336 op 0x0:(READ) flags 0x80700 phys_seg 10 prio class 0
May  4 22:51:09 AzProxmox systemd[1]: Started Session 53642 of user root.
May  4 22:51:09 AzProxmox systemd[1]: session-53642.scope: Succeeded.
May  4 22:51:16 AzProxmox pvedaemon[2011946]: ERROR: Backup of VM 104 failed - command '/usr/bin/proxmox-backup-client backup '--crypt-mode=none' pct.conf:/var/tmp/vzdumptmp2011946_104/etc/vzdump/pct.conf root.pxar:/mnt/vzsnap0 --include-dev /mnt/vzsnap0/./ --skip-lost-and-found '--exclude=/tmp/?*' '--exclude=/var/tmp/?*' '--exclude=/var/run/?*.pid' --backup-type ct --backup-id 104 --backup-time 1651697456 --repository root@pam@192.168.0.238:ExtHDD2TB' failed: exit code 255
May  4 22:51:16 AzProxmox pvedaemon[2011946]: INFO: Backup job finished with errors
May  4 22:51:16 AzProxmox pvedaemon[2011946]: job errors
May  4 22:51:16 AzProxmox pvedaemon[1933171]: <root@pam> end task UPID:AzProxmox:001EB32A:024A4B90:6272E730:vzdump:104:root@pam: job errors
May  4 22:51:46 AzProxmox pvedaemon[1933171]: worker exit
May  4 22:51:46 AzProxmox pvedaemon[875]: worker 1933171 finished
May  4 22:51:46 AzProxmox pvedaemon[875]: starting 1 worker(s)
May  4 22:51:46 AzProxmox pvedaemon[875]: worker 2013922 started

Dies im Backup Log:

Code:
INFO: starting new backup job: vzdump 104 --storage Prxmx-Backup-ExtHDD2TB --remove 0 --mode snapshot --node AzProxmox
INFO: Starting Backup of VM 104 (lxc)
INFO: Backup started at 2022-05-04 22:50:56
INFO: status = running
INFO: CT Name: PostgresDB
INFO: including mount point rootfs ('/') in backup
INFO: backup mode: snapshot
INFO: ionice priority: 7
INFO: create storage snapshot 'vzdump'
  WARNING: You have not turned on protection against thin pools running out of space.
  WARNING: Set activation/thin_pool_autoextend_threshold below 100 to trigger automatic extension of thin pools before they get full.
  Logical volume "snap_vm-104-disk-0_vzdump" created.
  WARNING: Sum of all thin volume sizes (609.73 GiB) exceeds the size of thin pool prxmx_vg/data_lv and the amount of free space in volume group (414.95 GiB).
INFO: creating Proxmox Backup Server archive 'ct/104/2022-05-04T20:50:56Z'
INFO: run: /usr/bin/proxmox-backup-client backup --crypt-mode=none pct.conf:/var/tmp/vzdumptmp2011946_104/etc/vzdump/pct.conf root.pxar:/mnt/vzsnap0 --include-dev /mnt/vzsnap0/./ --skip-lost-and-found --exclude=/tmp/?* --exclude=/var/tmp/?* --exclude=/var/run/?*.pid --backup-type ct --backup-id 104 --backup-time 1651697456 --repository root@pam@192.168.0.238:ExtHDD2TB
INFO: Starting backup: ct/104/2022-05-04T20:50:56Z
INFO: Client name: AzProxmox
INFO: Starting backup protocol: Wed May  4 22:50:56 2022
INFO: Downloading previous manifest (Tue May  3 04:02:09 2022)
INFO: Upload config file '/var/tmp/vzdumptmp2011946_104/etc/vzdump/pct.conf' to 'root@pam@192.168.0.238:8007:ExtHDD2TB' as pct.conf.blob
INFO: Upload directory '/mnt/vzsnap0' to 'root@pam@192.168.0.238:8007:ExtHDD2TB' as root.pxar.didx
INFO: catalog upload error - channel closed
INFO: Error: error at "var/lib/postgresql/11/main/base/16385/129138": Input/output error (os error 5)
INFO: cleanup temporary 'vzdump' snapshot
  Logical volume "snap_vm-104-disk-0_vzdump" successfully removed
ERROR: Backup of VM 104 failed - command '/usr/bin/proxmox-backup-client backup '--crypt-mode=none' pct.conf:/var/tmp/vzdumptmp2011946_104/etc/vzdump/pct.conf root.pxar:/mnt/vzsnap0 --include-dev /mnt/vzsnap0/./ --skip-lost-and-found '--exclude=/tmp/?*' '--exclude=/var/tmp/?*' '--exclude=/var/run/?*.pid' --backup-type ct --backup-id 104 --backup-time 1651697456 --repository root@pam@192.168.0.238:ExtHDD2TB' failed: exit code 255
INFO: Failed at 2022-05-04 22:51:16
INFO: Backup job finished with errors
TASK ERROR: job errors


Bitte auch mal den Thin Pool und die darunter liegende Hardware überprüfen.

Kannst Du mir sagen wie ich das mache? Leider weiß ich hier nicht wie ich das anstellen soll.





Sorry für den unglaublich vielen Text, ich hoffe Du hast überhaupt die Zeit Dir das durchzusehen.



Viele Grüße
Alexander
 

Attachments

Das hier
Code:
May  4 22:50:56 AzProxmox dmeventd[450]: No longer monitoring thin pool prxmx_vg-data_lv-tpool.
May  4 22:50:56 AzProxmox lvm[450]: Monitoring thin pool prxmx_vg-data_lv-tpool.
ist ein bisschen seltsam und das hier
Code:
May  4 22:51:02 AzProxmox kernel: [384239.024857] blk_update_request: critical medium error, dev nvme0n1, sector 151851336 op 0x0:(READ) flags 0x80700 phys_seg 10 prio class 0
klingt nicht gut. Auch die Fehler aus den Backup Logs deuten mMn darauf hin, dass mit dem unterliegenden Storage etwas nicht passt.

Kannst Du mir sagen wie ich das mache? Leider weiß ich hier nicht wie ich das anstellen soll.
Z.B. mit smartctl -aH <Pfad zum Device>, aber vielleicht auch physikalisch überprüfen, ob alles richtig steckt.

Falls da alles in Ordnung scheint, würd ich Mal versuchen, den alten Kernel zu booten.
 
Hallo @Fabian_E

erst einmal danke für Deine Geduld und das Du das alles gelesen hast :eek:


Leider sagen mir die Zeilen nicht viel.

Ich hatte den Proxmox nun vorhin mal komplett heruntergefahren und die USB Verbindungen zu beiden Festplatten geprüft. Da passt alles.
Die NVMe konnte ich nun auf die schnelle nicht prüfen, aber es würde mich wundern wenn die nicht richtig sitzt, dieses ist ja eingeschraubt.

Auch nach dem herunterfahren und prüfen ließ sich von CT104 und VM203 kein Backup erstellen.


Der Proxmox hat im Prinzip 4 Festplatten, 2 Interne (NVMe, SSD256GB) Sowie 2 Externe (SSD512GB und HDD 2TB). Die HDD ist direkt an eine der Virtuellen Maschinen (Backup Server) durchgereicht, die anderen sieht man auch auf dem Screenshot.

Ich habe bei allen Platten mal den Befehl abgesetzt, finde hier aber nichts auffälliges.


2022-05-06 12_31_15-AzProxmox - Proxmox Virtual Environment - Chromium.png


Die Ausgaben waren die folgenden:

Code:
root@AzProxmox:~# smartctl -aH /dev/nvme0n1p1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-6-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 980 PRO 1TB
Serial Number:                      S5GXNF0R858158H
Firmware Version:                   3B2QGXA7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 1.000.204.886.016 [1,00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      6
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1.000.204.886.016 [1,00 TB]
Namespace 1 Utilization:            382.022.909.952 [382 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 b811b68bf3
Local Time is:                      Fri May  6 12:29:19 2022 CEST
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0057):     Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.49W       -        -    0  0  0  0        0       0
 1 +     4.48W       -        -    1  1  1  1        0     200
 2 +     3.18W       -        -    2  2  2  2        0    1000
 3 -   0.0400W       -        -    3  3  3  3     2000    1200
 4 -   0.0050W       -        -    4  4  4  4      500    9500

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        47 Celsius
Available Spare:                    23%
Available Spare Threshold:          10%
Percentage Used:                    2%
Data Units Read:                    53.332.953 [27,3 TB]
Data Units Written:                 20.981.560 [10,7 TB]
Host Read Commands:                 247.890.617
Host Write Commands:                526.374.876
Controller Busy Time:               10.195
Power Cycles:                       12
Power On Hours:                     2.315
Unsafe Shutdowns:                   2
Media and Data Integrity Errors:    697
Error Information Log Entries:      697
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               47 Celsius
Temperature Sensor 2:               52 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0        697     5  0xe15a  0xc502  0x000    343783704     1     -

















root@AzProxmox:~# smartctl -aH /dev/sdc1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-6-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               ASMT
Product:              2115
Revision:             0
Compliance:           SPC-4
User Capacity:        512.110.190.592 bytes [512 GB]
Logical block size:   512 bytes
Logical Unit id:      0x5000000000000001
Serial number:        00000000000000000000
Device type:          disk
Local Time is:        Fri May  6 12:30:38 2022 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging
root@AzProxmox:~#















root@AzProxmox:~# smartctl -aH /dev/sda1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.13.19-6-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 850 PRO 256GB
Serial Number:    S251NSAG526038L
LU WWN Device Id: 5 002538 8a0a648ea
Firmware Version: EXM02B6Q
User Capacity:    256.060.514.304 bytes [256 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
TRIM Command:     Available
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri May  6 12:30:53 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 136) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       19111
 12 Power_Cycle_Count       0x0032   092   092   000    Old_age   Always       -       7952
177 Wear_Leveling_Count     0x0013   090   001   000    Pre-fail  Always       -       587
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   060   049   000    Old_age   Always       -       40
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   099   099   000    Old_age   Always       -       5
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       172
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       107564443830

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2259         -
# 2  Short offline       Completed without error       00%       864         -
# 3  Short offline       Completed without error       00%       609         -
# 4  Short offline       Completed without error       00%       306         -
# 5  Short offline       Completed without error       00%         6         -
# 6  Short offline       Completed without error       00%         5         -
# 7  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Leider habe ich keine Ahnung wie ich den alten Kernel booten könnte.
Kannst Du mir das erklären? Oder mir eine Anleitung verlinken?

Vielen Dank und viele Grüße
Alexander
 
Hallo @Fabian_E



nachdem die Fehler sich häufen (hier ein paar Beispielen):


In der PXE Backup Server VM
2022-05-08 19_18_47-AzProxmox - Proxmox Virtual Environment - Chromium.png

2022-05-08 18_35_26-AzProxmox - Proxmox Virtual Environment - Chromium.png


Und die Backups von gestern.

2022-05-08 20_11_03-vzdump backup status (AzProxmox.J3A7R) _ backup failed - Posteingang - azr...png

2022-05-08 20_11_21-vzdump backup status (AzProxmox.J3A7R) _ backup failed - Posteingang - azr...png




und ich nicht weiterwusste, habe ich weiter habe ich nun alle Systeme aktualisiert (Proxmox Virtual Environment 7.2-3) und alle Clients auf den neusten Stand.

Leider hat das weiterhin keine Besserung gebracht.



Stattdessen sind mir heute Morgen im Syslog des Proxmox folgende Fehler aufgefallen:


Code:
WARNING: Sum of all thin volume sizes (609.73 GiB) exceeds the size of thin pool prxmx_vg/data_lv and the amount of free space in volume group (414.95 GiB).



May 08 00:33:26 AzProxmox kernel: blk_update_request: critical medium error, dev nvme0n1, sector 67484672 op 0x0:(READ) flags 0x80700 phys_seg 2 prio class 0

May 08 00:33:17 AzProxmox smartd[720]: Device: /dev/nvme0, number of Error Log entries increased from 1084 to 1095





May 08 00:33:22 AzProxmox kernel: EXT4-fs (dm-8): warning: mounting fs with errors, running e2fsck is recommended



May 08 00:33:26 AzProxmox kernel: blk_update_request: critical medium error, dev nvme0n1, sector 67484672 op 0x0:(READ) flags 0x80700 phys_seg 2 prio class 0





Auch kann ich z.B. in der IOBroker CT ein Update nicht einspielen.

Mir scheint es als könnte die NVMe auf welcher Proxmox und die CT/VM laufen ein Problem haben.





Gibt es eine Möglichkeit diese Platte untersuchen zu lassen?

Sowas wie Chkdsk unter Windows welches beim nächsten Systemstart ausgeführt wird? Oder hat noch jemand eine andere Idee wie ich der Sache auf die Spur kommen könnte?


Vielen Dank
Alexander
 
Last edited:
Klingt alles so, als ob die Disk langsam am Ende ist, smartclt zeigt ja auch Fehler. Alte Disk nicht mehr benutzen, mit ddrescue oder Ähnlichem versuchen zu retten, was noch zu retten ist und auf eine neue Disk zu übertragen.
 
Klingt alles so, als ob die Disk langsam am Ende ist, smartclt zeigt ja auch Fehler. Alte Disk nicht mehr benutzen, mit ddrescue oder Ähnlichem versuchen zu retten, was noch zu retten ist und auf eine neue Disk zu übertragen.

@Fabian_E
Damit hast Du leider recht, gestern Abend ist der Proxmox eingefrohrern und bootet nun nicht mal mehr. Er zeigt direkt beim Bootvorgang, nach GRUB Festplattenfehler.

Ich habe die NVMe schon reklamiert und werde diese dann gleich mal ausbauen udn schauen ob ich über ein anderes System noch Daten herunter bekomme.
Erstmal die Speicherorte der VM / CT suchen. Ewig nicht mehr gemacht :rolleyes:.

Kennt jemand von euch eine gute Anleitung wie ich eine ZFS Platte in einen neuen PXE Backupserver einbinde und die alten Backups lesen kann?
Da mach ich mir gerade etwas Gedanken drum.

Viele Grüße
Alexander
 
Klingt alles so, als ob die Disk langsam am Ende ist, smartclt zeigt ja auch Fehler. Alte Disk nicht mehr benutzen, mit ddrescue oder Ähnlichem versuchen zu retten, was noch zu retten ist und auf eine neue Disk zu übertragen.

Hey @Fabian_E wollte mich noch mal bedenken für die viele Hilfe und die Tipps.
Mit der Austausch Platte läuft nun alles wieder wie gewünscht. Es war wirklich "nur" die NVMe defekt.
Gut das man ausreichend Backups überall verteilt liegen hat. So hab ich nur 2 Tage Logdaten verloren.

Vielen Dank und viele Grüße
Alexander
 

About

The Proxmox community has been around for many years and offers help and support for Proxmox VE, Proxmox Backup Server, and Proxmox Mail Gateway.
We think our community is one of the best thanks to people like you!

Get your subscription!

The Proxmox team works very hard to make sure you are running the best software and getting stable updates and security enhancements, as well as quick enterprise support. Tens of thousands of happy customers have a Proxmox subscription. Get yours easily in our online shop.

Buy now!