Hallo zusammen,
wir betreiben einen Proxmox-Cluster mit 17 PVE Nodes und dazu einen Ceph-Storage Cluster mit 5 Nodes. Die Deployments von VMs erledigen wir durchweg automatisiert mit Terraform/OpenTofu.
Ein Problem, das wir neuerdings sehen, ist, dass beim Löschen von VMs Fehler beim Entfernen der VM-Images im Ceph auftreten. Folgender Fehler wird im Löschen-Task gelogged:
Interessanterweise ergibt ein
, dass die VM Disk tatsächlich entfernt wurde, in der PVE WebUI ist die VM aber noch vorhanden mit der Referenz auf die VM Disk im Ceph-Pool.
Aufgrund des beschriebenen Problems schlagen alle automatisierten Deployments fehl und man muss die betreffende VM manuell entfernen. Es macht den Eindruck, dass das Problem erst auftritt, wenn im Pool eine gewisse Anzahl von VM Disks gespeichert ist (und ggf. das Löschen/Listing der VM Images zu lange braucht). 100% sicher ist das aber nicht und auch eine "Grenze" in der Anzahl konnten wir bisher nicht identifizieren.
Hat jemand schon mal ein ähnliches Verhalten beobachten können? Gibt's eine Lösung?
Besten Dank und viele Grüße
A. Rausch
wir betreiben einen Proxmox-Cluster mit 17 PVE Nodes und dazu einen Ceph-Storage Cluster mit 5 Nodes. Die Deployments von VMs erledigen wir durchweg automatisiert mit Terraform/OpenTofu.
Ein Problem, das wir neuerdings sehen, ist, dass beim Löschen von VMs Fehler beim Entfernen der VM-Images im Ceph auftreten. Folgender Fehler wird im Löschen-Task gelogged:
Code:
Removing image: 100% complete...done.
Removing image: 1% complete...
Removing image: 2% complete...
Removing image: 3% complete...
Removing image: 4% complete...
Removing image: 5% complete...
Removing image: 6% complete...
Removing image: 7% complete...
Removing image: 8% complete...
Removing image: 9% complete...
Removing image: 10% complete...
Removing image: 11% complete...
Removing image: 12% complete...
Removing image: 13% complete...
Removing image: 14% complete...
Removing image: 15% complete...
Removing image: 16% complete...
Removing image: 17% complete...
Removing image: 18% complete...
Removing image: 19% complete...
Removing image: 20% complete...
Removing image: 21% complete...
Removing image: 22% complete...
Removing image: 23% complete...
Removing image: 24% complete...
Removing image: 25% complete...
Removing image: 26% complete...
Removing image: 27% complete...
Removing image: 28% complete...
Removing image: 29% complete...
Removing image: 30% complete...
Removing image: 31% complete...
Removing image: 32% complete...
Removing image: 33% complete...
Removing image: 34% complete...
Removing image: 35% complete...
Removing image: 36% complete...
Removing image: 37% complete...
Removing image: 38% complete...
Removing image: 39% complete...
Removing image: 40% complete...
Removing image: 41% complete...
Removing image: 42% complete...
Removing image: 43% complete...
Removing image: 44% complete...
Removing image: 45% complete...
Removing image: 46% complete...
Removing image: 47% complete...
Removing image: 48% complete...
Removing image: 49% complete...
Removing image: 50% complete...
Removing image: 51% complete...
Removing image: 52% complete...
Removing image: 53% complete...
Removing image: 54% complete...
Removing image: 55% complete...
Removing image: 56% complete...
Removing image: 57% complete...
Removing image: 58% complete...
Removing image: 59% complete...
Removing image: 60% complete...
Removing image: 61% complete...
Removing image: 62% complete...
Removing image: 63% complete...
Removing image: 64% complete...
Removing image: 65% complete...
Removing image: 66% complete...
Removing image: 67% complete...
Removing image: 68% complete...
Removing image: 69% complete...
Removing image: 70% complete...
Removing image: 71% complete...
Removing image: 72% complete...
Removing image: 73% complete...
Removing image: 74% complete...
Removing image: 75% complete...
Removing image: 76% complete...
Removing image: 77% complete...
Removing image: 78% complete...
Removing image: 79% complete...
Removing image: 80% complete...
Removing image: 81% complete...
Removing image: 82% complete...
Removing image: 83% complete...
Removing image: 84% complete...
Removing image: 85% complete...
Removing image: 86% complete...
Removing image: 87% complete...
Removing image: 88% complete...
Removing image: 89% complete...
Removing image: 90% complete...
Removing image: 91% complete...
Removing image: 92% complete...
Removing image: 93% complete...
Removing image: 94% complete...
Removing image: 95% complete...
Removing image: 96% complete...
Removing image: 97% complete...
Removing image: 98% complete...
Removing image: 99% complete...
Removing image: 100% complete...done.
TASK ERROR: rbd error: rbd: listing images failed: (2) No such file or directory
Interessanterweise ergibt ein
Code:
pvesh ls /nodes/<node>/storage/<pool>/content | grep <VMID>
Aufgrund des beschriebenen Problems schlagen alle automatisierten Deployments fehl und man muss die betreffende VM manuell entfernen. Es macht den Eindruck, dass das Problem erst auftritt, wenn im Pool eine gewisse Anzahl von VM Disks gespeichert ist (und ggf. das Löschen/Listing der VM Images zu lange braucht). 100% sicher ist das aber nicht und auch eine "Grenze" in der Anzahl konnten wir bisher nicht identifizieren.
Hat jemand schon mal ein ähnliches Verhalten beobachten können? Gibt's eine Lösung?
Besten Dank und viele Grüße
A. Rausch