Instabil durch Backup?

rebru · May 1, 2024

Guten Morgen allerseits

Ich hab ein Problem, dass immer mal wieder auftritt, aber ich nicht eruieren kann, an was es liegt. Ich hab eine Vermutung, aber ich bräuchte Hilfe um zu bestätigen, dass es das ist.

Das Problem äusserst sich so, dass am Morgen irgendwann sich ein Host aufhängt beim Backupen (hier vermute ich meist ein LXC Container, ich habe 3 HV's und jeder von diesen 3-en ist immer mal wieder betroffen aber eben nicht konstant) und damit dann die ganze Maschine runterzieht. Diese Nacht war es der LXC Container welcher den DNS bereitstellt, was natürlich zu immensen Problemen geführt hat.

Im GUI sieht das dann wie im Screenshot aus - lustigerweise sind aber alle Maschinen bis auf die die sich aufgehängt hat immer noch komplett operativ, das heisst sie funktionieren problemlos. Heute war es der Container 101 (im Screenshot).

In welchem Log kann ich nachsehen bzw. nachvollziehen, was wohl das Problem war?

dietmar · May 1, 2024

Schau mal im syslog nach. Hast du genug RAM? Wie ist der RAM verbrauch während des backups?

rebru · May 1, 2024

Danke für die Antwort

Im syslog (journalctl --since=today) sehe ich nicht viel - das Backup startet

Code:

Apr 30 23:00:00 pxhv3 pvescheduler[1804983]: <root@pam> starting task UPID:pxhv3:001B8AB8:01CE02BA:66315BD0:vzdump::root@pam:
Apr 30 23:00:00 pxhv3 pvescheduler[1804984]: INFO: starting new backup job: vzdump 125 101 102 103 104 105 106 107 108 109 110 111 112 114 115 116 118 119 120 122 113 124 126 127 128 121 --quiet 1 --mailto verwaltung@sld.tld --storage PBS --mailnotification failure --prune-backups >
Apr 30 23:00:00 pxhv3 pvescheduler[1804984]: INFO: Starting Backup of VM 101 (lxc)
Apr 30 23:00:00 pxhv3 pmxcfs[1937]: [status] notice: received log
Apr 30 23:00:01 pxhv3 pmxcfs[1937]: [status] notice: received log

Und dann, wenn ich natürlich das Backup abbreche (101 VM) erscheint der Eintrag - dann hab ich die Kiste natürlich neu gestartet (lustigerweise konnte er alle VM's runterfahren bzw. migrieren)

Code:

May 01 07:14:00 pxhv3 pvescheduler[1804984]: ERROR: Backup of VM 101 failed - interrupted by signal
May 01 07:14:00 pxhv3 pvescheduler[1804984]: ERROR: Backup job failed - interrupted by signal
May 01 07:14:00 pxhv3 pvescheduler[1804984]: interrupted by signal

Auch das vzdump log sagt nicht viel aus - man sieht nur den zeitlichen Versatz, weil ein LXC Container sicherlich nicht 8 Stunden braucht um zu backupen

Code:

2024-04-30 23:00:00 INFO: Starting Backup of VM 101 (lxc)
2024-04-30 23:00:00 INFO: status = running
2024-04-30 23:00:00 INFO: CT Name: dns.sld.tld
2024-04-30 23:00:00 INFO: including mount point rootfs ('/') in backup
2024-04-30 23:00:00 INFO: mode failure - some volumes do not support snapshots
2024-04-30 23:00:00 INFO: trying 'suspend' mode instead
2024-04-30 23:00:00 INFO: backup mode: suspend
2024-04-30 23:00:00 INFO: ionice priority: 7
2024-04-30 23:00:00 INFO: CT Name: dns.sld.tld
2024-04-30 23:00:00 INFO: including mount point rootfs ('/') in backup
2024-04-30 23:00:00 INFO: starting first sync /proc/3745/root/ to /var/tmp/vzdumptmp1804984_101
2024-04-30 23:00:04 INFO: first sync finished - transferred 956.74M bytes in 4s
2024-04-30 23:00:04 INFO: suspending guest
2024-05-01 07:14:00 ERROR: Backup of VM 101 failed - interrupted by signal

Bezüglich RAM - Alle 3 HV's haben 512 GB Ram, der PBS hat 16 GB Ram - Oder meinst Du das RAM des betroffenen Containers? Das wären dann 2GB.

Was ich aber noch gesehen habe unter Day (average) Statistiken ist ein steiler Anstieg des Server Loads - jedoch finde ich die Maschine nicht, die das verursacht hat.

Frage: Kann es sein, wenn ein BackupJob viele Maschinen hat, die er backupen muss, er damit ein Problem kriegt? Weil der globale Backup Job hat 26 Maschinen hinterlegt.

news · May 1, 2024

Nutzt dein Setup durchgängig ZFS als File- und Dateisystem? das wäre von Vorteil - snapshots -
Ist im Rootdateisystem jedes Servers noch genügend Platz für temporäre snapshots und das Backup?
Evtl. schreibt man sich einen Bot, der das Verhalten: CPU- und Ram-Auslastung sowie die HDD, SSD Belegung/ Auslastung protokolliert.

rebru · May 1, 2024

news said:
Nutzt dein Setup durchgängig ZFS als File- und Dateisystem? das wäre von Vorteil - snapshots -
Ist im Rootdateisystem jedes Servers noch genügend Platz für temporäre snapshots und das Backup?
Evtl. schreibt man sich einen Bot, der das Verhalten: CPU- und Ram-Auslastung sowie die HDD, SSD Belegung/ Auslastung protokolliert.

Danke für die Antwort

@ZFS - Nein, Root FS ist EXT4 die lokalen Storages (ich hab das meiste auf NFS entweder auf Syno Cluster oder Linstor Cluster via VM's auf den lokalen HV's).

@root FS Space: Leider nicht, aber dann wird das wohl das Problem sein - hab da leider nur 80G frei. Das war mir seinerzeit als ich den Cluster aufgebaut nicht bewusst, dass LXC Container lokal dumpen ins Root FS.

Aber dann sehe ich was das Problem ist - ich hab einen Container mit 250GB Space, der hat wahrscheinlich dann dazu geführt, weil er dann in ein "No Space left" gelaufen ist (obwohl alle LXC Container zusammen auf dem HV's wo das Problem war ~33GB beanspruchen).

Dann muss ich wohl beim vzdump das Setting noch setzen, dass er nicht lokal dumpt sondern halt auf ein NFS, weil auf den lokalen Storage kann ich ja nicht dumpen?

news · May 1, 2024

Wäre zu vermuten. Viel Erfolg.

Search

Search

Instabil durch Backup?

rebru

New Member

Attachments

dietmar

Proxmox Staff Member

rebru

New Member

Attachments

news

Active Member

rebru

New Member

news

Active Member