Hallo,
ich habe vor einiger Zeit begonnen Proxmox einzusetzen und möchte viele interne (privates Umfeld) Services größtenteils ausfallsicher auf Proxmox betreiben. Dazu wurden zwei Mini-PC mit internen NVMe Disks und Quad-Port 1 Gb/s Ethernet NICs installiert und als shared nothing Cluster mit einem RasPi als qDevice eingerichtet.
Es läuft momentan die Version 8.4.1, Updates stehen an.
Die internen NVMe Disks sind 256 GB groß, per LVM (und ohne ZFS) für Proxmox eingerichtet und ein LVM-Thin Bereich von ca. 160 GB für Container und VMs angelegt.
Es läuft pro PVE Node eine VM (BSD) und ca. 5 Container (alle Debian).
In Ermangelung eines Shared Storage wurde die Ausfallsicherheit pro Service betrachtet und unterschiedlich realisiert:
Die PVE Nodes zeigen eine durchschnittliche CPU Last von ca. 10% und eine durchschnittliche RAM Auslastung von ca. 30 % an. Das IO Delay liegt bei max 0,2% (zumeist deutlich darunter) und weniger als 2 Mbit/s Netzwerktraffic.
Nun ist es so, dass nach einiger Zeit - ich weiß nicht genau welche, so zwischen 10 und 28 Tagen geschätzt - Container nicht mehr korrekt erreichbar sind. D.h. im PVE Web-UI gehe ich auf die Console eines Containers, sehe ggfs. die Textzeile fürs Login, aber der Container reagiert nicht auf Eingaben. Beim Versuch per SSH gibt es: „Connection reset by 192.168.x.y port 22“.
Auch die dort laufende Software reagiert nur in Teilen. Bsp.: Connection zum WebUI der Applikation kann aufgebaut werden, aber es finden keine Reaktionen auf Mausklicks statt.
Die Container lassen sich per PVE WebUI nicht mehr stoppen, sondern nur per Kommandozeile und forced.
Werden die Container erneut gestartet, ist für eine Zeit wieder alles OK.Ein Reboot der PVE Node löst den Zustand ebenfalls, dauert aber etwas, das zunächst lange versucht wird die Container zu stoppen.
Dieser Zustand tritt bei Containern auf beiden PVE Nodes auf. Es scheint, dass nicht sofort alle Container auf einer Node betroffen sind. Wenn eine PVE Node betroffen ist, läuft die zweite Node zumeist absolut korrekt weiter. Die beiden VMs scheinen nie betroffen zu sein.
Der Zustand ist für das hausinterne „Produktionssystem“ natürlich nicht tragbar. Meine erste Frage wäre: was muss ich tun, welche Einstellungen für eine Analyse vornehmen und welche Logs wie sammeln, um das Problem anzugehen. Oder kann jemand aufgrund der Beschreibung bereits das Lösungs-Kaninchen aus dem Hut zaubern?
Ich sag schon mal Danke!
ich habe vor einiger Zeit begonnen Proxmox einzusetzen und möchte viele interne (privates Umfeld) Services größtenteils ausfallsicher auf Proxmox betreiben. Dazu wurden zwei Mini-PC mit internen NVMe Disks und Quad-Port 1 Gb/s Ethernet NICs installiert und als shared nothing Cluster mit einem RasPi als qDevice eingerichtet.
Es läuft momentan die Version 8.4.1, Updates stehen an.
Die internen NVMe Disks sind 256 GB groß, per LVM (und ohne ZFS) für Proxmox eingerichtet und ein LVM-Thin Bereich von ca. 160 GB für Container und VMs angelegt.
Es läuft pro PVE Node eine VM (BSD) und ca. 5 Container (alle Debian).
In Ermangelung eines Shared Storage wurde die Ausfallsicherheit pro Service betrachtet und unterschiedlich realisiert:
- Replikation auf Applikationsebene (beide PVE Nodes fahren einen aktiven Service, der intern seine Daten synchronisiert)
- Synchrone Storage Replikation zwischen den beiden internen NVMe Disks der beiden PVE Nodes mit LINBIT DRBD (der Container für den Service liegt auf einem per DRBD replizierten Device)
Die PVE Nodes zeigen eine durchschnittliche CPU Last von ca. 10% und eine durchschnittliche RAM Auslastung von ca. 30 % an. Das IO Delay liegt bei max 0,2% (zumeist deutlich darunter) und weniger als 2 Mbit/s Netzwerktraffic.
Nun ist es so, dass nach einiger Zeit - ich weiß nicht genau welche, so zwischen 10 und 28 Tagen geschätzt - Container nicht mehr korrekt erreichbar sind. D.h. im PVE Web-UI gehe ich auf die Console eines Containers, sehe ggfs. die Textzeile fürs Login, aber der Container reagiert nicht auf Eingaben. Beim Versuch per SSH gibt es: „Connection reset by 192.168.x.y port 22“.
Auch die dort laufende Software reagiert nur in Teilen. Bsp.: Connection zum WebUI der Applikation kann aufgebaut werden, aber es finden keine Reaktionen auf Mausklicks statt.
Die Container lassen sich per PVE WebUI nicht mehr stoppen, sondern nur per Kommandozeile und forced.
Werden die Container erneut gestartet, ist für eine Zeit wieder alles OK.Ein Reboot der PVE Node löst den Zustand ebenfalls, dauert aber etwas, das zunächst lange versucht wird die Container zu stoppen.
Dieser Zustand tritt bei Containern auf beiden PVE Nodes auf. Es scheint, dass nicht sofort alle Container auf einer Node betroffen sind. Wenn eine PVE Node betroffen ist, läuft die zweite Node zumeist absolut korrekt weiter. Die beiden VMs scheinen nie betroffen zu sein.
Der Zustand ist für das hausinterne „Produktionssystem“ natürlich nicht tragbar. Meine erste Frage wäre: was muss ich tun, welche Einstellungen für eine Analyse vornehmen und welche Logs wie sammeln, um das Problem anzugehen. Oder kann jemand aufgrund der Beschreibung bereits das Lösungs-Kaninchen aus dem Hut zaubern?
Ich sag schon mal Danke!