[SOLVED] 2 verschiedene Cluster im gleichen Netzwerk?

celtar · Sep 8, 2020

Hallo,

aufgrund der Tatsache das man alle Proxmox Server (innerhalb eines Clusters) die eine VM mit Windows 2019 enthalten mit einer Windows 2019 Datacenter Lizenz versehen muss (es besteht ja die theoretische Möglichkeit die 2019er VM innerhalb des Clusters auf jeden Proxmox Server zu verschieben) bleibt uns nur die Möglichkeit (lt. M$ Lizenzberater) einen getrennten 2. Proxmox Cluster aufzubauen. Alternativ geht natürlich auch nur Blech aber das wäre in unser Konstellation leider zu teuer (trotz Windows 2019 SB/OEM anstelle Datacenter)

Stand jetzt: 7 Proxmox Server mit 2x Shared Storage (NFS SSD Filer)
geplant: 1x Cluster mit 6 Proxmox für Linux, 1x Cluster 2 Proxmox für Windows 2019 DC - möglichst vorhandenen 2x NFS Filer nutzen
Netzwerk ist Cisco 10 GBit Backbone Switch (SG350 Serie)

Hier also die Fragen:
1. Gibt es die Möglichkeit (evtl. über VLAN) zwei Proxmox Cluster innerhalb des gleichen Netzwerks zu betreiben?
Also z.B Cluster01 und Cluster02
2. Ist trotzdem ein Shard Storage (bei uns NFS) Zugriff möglich (die vms sind bei uns auf einem NFS Share)? (evtl. müssen wir den auch trennen das klären wir noch mit dem Softwareberater).
3. Ist zwingend ein VLAN erforderlich (wir denken ja - wissen aber nicht ob das auch zusätzliche Performance kostet)

Bisher haben wir keine Performance Probleme deswegen haben wir auch keine physikalische Trennung im Netzwerk für Storage und Proxmox Server. (Das wird ja gemeinhin empfohlen - also 2 getrennte 10GBit Switche).

Würde mich über eine Einschätzung und Empfehlung freuen.

Danke und vG
John

aaron · Sep 8, 2020

celtar said:
1. Gibt es die Möglichkeit (evtl. über VLAN) zwei Proxmox Cluster innerhalb des gleichen Netzwerks zu betreiben?
Also z.B Cluster01 und Cluster02

Grundsätzlich ja, wobei das glaube ich nicht nötig VLANs zu verwenden.

celtar said:
2. Ist trotzdem ein Shard Storage (bei uns NFS) Zugriff möglich (die vms sind bei uns auf einem NFS Share)? (evtl. müssen wir den auch trennen das klären wir noch mit dem Softwareberater).

Kommt drauf an was drauf liegt. Wenn es die VMs selbst sind, dann sind separate Shares definitiv zu empfehlen. Der Hintergrund ist folgender: Ein PVE Cluster nimmt an, der alleinige Benutzer eines Storages zu sein. Wenn nun zwei Cluster auf das gleiche Storage zugreifen und die VMs zufällig die gleichen VMIDs haben gibt es Probleme. Von korrupten VM disks bis hin zu unerwartet gelöschten VM disks.

celtar said:
3. Ist zwingend ein VLAN erforderlich (wir denken ja - wissen aber nicht ob das auch zusätzliche Performance kostet)

Bisher haben wir keine Performance Probleme deswegen haben wir auch keine physikalische Trennung im Netzwerk für Storage und Proxmox Server. (Das wird ja gemeinhin empfohlen - also 2 getrennte 10GBit Switche).

Hier gilt grundsätzlich für die PVE Clusterkommunikation (Corosync) ein extra physikalisches Netzwerk zu verwenden. Corosync braucht sehr niedrige Latenzen und wenn Storage oder Backup das Netz voll auslasten kann die Latenz für andere Dienste in die Höhe gehen.

Wirklich problematisch wird das, wenn man HA verwendet. Denn wenn eine Node HA Gäste beherbergt (oder seit dem letzten Boot welche hatte) und die Corosync Kommunikation zum quoraten Teil des Clusters verliert, fenced (hard reset) sie sich nach ~2 Minuten um sicherzustellen, dass die HA Gäste auch ja nicht mehr laufen.

In der Konstellation, dass das Storage das Netz auslastet, betrifft das oft alle Nodes und somit schaut es so aus, als ob der gesamte Cluster unerwartet neu startet.

Ich hoffe das hilft bei der Entscheidungsfindung.

LnxBil · Sep 10, 2020

celtar said:
1x Cluster 2 Proxmox für Windows 2019 DC

Ihr wisst es bestimmt bereits, aber ich erwähne es nochmal:
Hier bitte noch bedenken, dass ein "richtiger" Cluster erst ab 3 Knoten funktioniert. Ihr müsst hier die entsprechenden Einstellungen für einen zwei-Knoten-Cluster aktivieren.

celtar said:
Bisher haben wir keine Performance Probleme deswegen haben wir auch keine physikalische Trennung im Netzwerk für Storage und Proxmox Server. (Das wird ja gemeinhin empfohlen - also 2 getrennte 10GBit Switche).

Generell empfiehlt man immer in jedem HA-Umfeld alles mindestens doppelt anzulegen, also 2 Switche (ggf. sogar 4 wenn es in versch. Brandabschnittsräumen steht). Was aber bei PVE (oder jeder anderen SDS-Lösung) empfohlen wird ist es die Netze zu trennen, nicht die Switches, d.h. zwei Netzwerkkarten (besser als 2 Ports einer Netzwerkkarte) für das VM-Netz und die gleiche Konstellation für das SDS-Netz. Wir machen das immer mit zwei Dual-Port-Netzwerkkarten mit mind. versch. Chip, besser noch Hersteller, sodass wir hier die Redundanz eines Kartenausfalls und eines Treiberausfalls kompensieren können. Dann jeweils ein Port jeder Karte im Bond an die Switches.

celtar · Sep 10, 2020

LnxBil said:
Ihr wisst es bestimmt bereits, aber ich erwähne es nochmal:
Hier bitte noch bedenken, dass ein "richtiger" Cluster erst ab 3 Knoten funktioniert. Ihr müsst hier die entsprechenden Einstellungen für einen zwei-Knoten-Cluster aktivieren.

Sehr guter Hinweis. Ich hätte es tatsächlich vergessen. Danke! Verdammt jetzt überlege ich mein Budgetplanung nochmal umzuwerfen

Generell empfiehlt man immer in jedem HA-Umfeld alles mindestens doppelt anzulegen, also 2 Switche (ggf. sogar 4 wenn es in versch. Brandabschnittsräumen steht). Was aber bei PVE (oder jeder anderen SDS-Lösung) empfohlen wird ist es die Netze zu trennen, nicht die Switches, d.h. zwei Netzwerkkarten (besser als 2 Ports einer Netzwerkkarte) für das VM-Netz und die gleiche Konstellation für das SDS-Netz. Wir machen das immer mit zwei Dual-Port-Netzwerkkarten mit mind. versch. Chip, besser noch Hersteller, sodass wir hier die Redundanz eines Kartenausfalls und eines Treiberausfalls kompensieren können. Dann jeweils ein Port jeder Karte im Bond an die Switches.

Ebenfalls guter Hinweis. Wir nutzen allerdings bisher kein HA. Bei uns wird nur Development betrieben. Ob da mal eine VM kurzfristig nicht erreichbar ist oder nicht spielt quasi keine Rolle. Mich würde da mal Praxiserfahrungen interessieren. Ich bin da mehr der "Keep-It-Simple" Typ. Unterschiedliche Hardware erhöht imho auch schnell die Komplexität und damit das Risiko eines Ausfalls und/oder mehr technische Wartungsarbeit. Wäre da nicht ein getrennter Testcluster besser? Wie gesagt leider keine Erfahrung. Mit steigender 99.9x Sicherheit steigt dann auch rasant das Budget. Ich könnte mir vorstellen das sogar ein zweite Clustersoftware (anderer Hersteller) denkbar ist. Man kann das ja schnell auf die Spitze treiben.

BTW. Wir hatten tatsächlich mal (da wir schon länger proxmoxen) eine ASUS 10GBit Karte. Die hatte tatsächlich das Problem, das die mal irgendwann einfach ausstieg und komplett den Cluster kurz lahmlegte. Glücklicherweise nur sehr kurz so dass der Impact recht "harmlos" in unserem Bereich war. Hat gedauert bis wir den Fehler gefunden hatten und auch irgendwie nicht. Fehler waren nicht richtig reproduzierbar.. Wir haben die Karten dann einfach gegen Intel ausgetauscht. Dann war fast Ruhe (bis auf kleine Offloading Problemeinstellungen im Treiber). Seit dem läuft der Cluster problemlos durch und auch alle Updates laufen einfach durch.

celtar · Sep 10, 2020

aaron said:
Grundsätzlich ja, wobei das glaube ich nicht nötig VLANs zu verwenden.

Kommt drauf an was drauf liegt. Wenn es die VMs selbst sind, dann sind separate Shares definitiv zu empfehlen. Der Hintergrund ist folgender: Ein PVE Cluster nimmt an, der alleinige Benutzer eines Storages zu sein. Wenn nun zwei Cluster auf das gleiche Storage zugreifen und die VMs zufällig die gleichen VMIDs haben gibt es Probleme. Von korrupten VM disks bis hin zu unerwartet gelöschten VM disks.

Hier gilt grundsätzlich für die PVE Clusterkommunikation (Corosync) ein extra physikalisches Netzwerk zu verwenden. Corosync braucht sehr niedrige Latenzen und wenn Storage oder Backup das Netz voll auslasten kann die Latenz für andere Dienste in die Höhe gehen.

Wirklich problematisch wird das, wenn man HA verwendet. Denn wenn eine Node HA Gäste beherbergt (oder seit dem letzten Boot welche hatte) und die Corosync Kommunikation zum quoraten Teil des Clusters verliert, fenced (hard reset) sie sich nach ~2 Minuten um sicherzustellen, dass die HA Gäste auch ja nicht mehr laufen.

In der Konstellation, dass das Storage das Netz auslastet, betrifft das oft alle Nodes und somit schaut es so aus, als ob der gesamte Cluster unerwartet neu startet.

Ich hoffe das hilft bei der Entscheidungsfindung.

Danke nochmal für die Infos. Haben super geholfen.

Search

Search

[SOLVED] 2 verschiedene Cluster im gleichen Netzwerk?

celtar

Renowned Member

aaron

Proxmox Staff Member

LnxBil

Distinguished Member

celtar

Renowned Member

celtar

Renowned Member