Hallo PROXMOX User,
ich möchte hier gerne mal mein Leid klagen....
Zielsetzung:
Exchange Cluster mit ca. 12.000 Postfächern und 12 Datenbanken mit je 1TB Kapazität
- dreifache Redundanz, dh. insgesamt 4 Server mit je 1 aktive DB und 3 passive DBs
Pro Server 6 Cores auf 2 Sockets, 128 GB RAM, je 25 virtuelle Laufwerke (1x OS = 500 GB, 12x DB = je 1TB, 12x Logs = je 200GB)
Uns stehen 7 PROXMOX Nodes zur Verfügung:
64 x AMD EPYC 7302 16-Core Processor (2 Sockets)
512 GB RAM
Ceph Storage mit 91 SSDs mit je 7.68TB (Micron 5210 ION 7.68TB, SATA (MTFDDAK7T6QDE-2AV1ZAB))
40 Gigabit Anbindung
Aktuell handelt es sich um eine Teststellung mit ca. 30 Postfächern. D.h. so gut wie kein Last. Ceph langweilt sich...
Nun verhält es sich so, dass die Server regelmäßig die gemounteten Laufwerke verlieren.
Im Windows Log werden folgende Errors und Warnings generiert (exemplarisch):
Event ID 129, vioscsi
Ein Zurücksetzen auf Gerät "\Device\RaidPort0" wurde ausgegeben.
Event ID 159, ExchangeStorageDBAt
'16.11.2021 08:18:53' the Exchange store database 'MBX02' copy on this server timed out on one or more Hung IOs. For more details about the failure, consult the Event log on the server for other storage and "ExchangeStoreDb" events.
EventID 532, ESE
Information Store - MBX02 (16268,R,0,15.02.0986.009) MBX02: Eine Anforderung zum Lesen aus der Datei "C:\MountPoints\LOG\MBX02\E0000000F1C.log" bei Offset 790528 (0x00000000000c1000) für 258048 (0x0003f000) Bytes wurde 244 Sekunde(n) lang nicht abgeschlossen. Dieses Problem wird wahrscheinlich durch fehlerhafte Hardware verursacht. Wenden Sie sich an den Hardwarelieferanten, um Hilfe bei der Problemdiagnose zu erhalten.
EventID 498, ESE
msexchangerepl (7208,G,0,15.02.0986.009) Fehler beim Versuch, Datei "C:\MountPoints\DB\MBX04\mbx04.edb" für den Lesezugriff zu öffnen, mit Systemfehler 32 (0x00000020): "Der Prozess kann nicht auf die Datei zugreifen, da sie von einem anderen Prozess verwendet wird. ". Fehler -1032 (0xfffffbf8) bei der Operation zum Öffnen von Dateien.
Nach wenigen Minuten, stellen die VMs Ihren Dienst ein, verlieren die Laufwerke und reagieren nicht mehr (kein shutdown möglich).
Der PROXMOX Support war bisher wenig hilfreich... uns wurde nahegelegt statt der je 25 Laufwerke, je ein großes Laufwerk zu erstellen.
Hat jemand ähnliche Erfahrungen gemacht oder hat in dieser Konstellation Expertise?
Über eure Erfahrungswerte würde ich mich sehr freuen....
Danke und Gruß!
ich möchte hier gerne mal mein Leid klagen....
Zielsetzung:
Exchange Cluster mit ca. 12.000 Postfächern und 12 Datenbanken mit je 1TB Kapazität
- dreifache Redundanz, dh. insgesamt 4 Server mit je 1 aktive DB und 3 passive DBs
Pro Server 6 Cores auf 2 Sockets, 128 GB RAM, je 25 virtuelle Laufwerke (1x OS = 500 GB, 12x DB = je 1TB, 12x Logs = je 200GB)
Uns stehen 7 PROXMOX Nodes zur Verfügung:
64 x AMD EPYC 7302 16-Core Processor (2 Sockets)
512 GB RAM
Ceph Storage mit 91 SSDs mit je 7.68TB (Micron 5210 ION 7.68TB, SATA (MTFDDAK7T6QDE-2AV1ZAB))
40 Gigabit Anbindung
Aktuell handelt es sich um eine Teststellung mit ca. 30 Postfächern. D.h. so gut wie kein Last. Ceph langweilt sich...
Nun verhält es sich so, dass die Server regelmäßig die gemounteten Laufwerke verlieren.
Im Windows Log werden folgende Errors und Warnings generiert (exemplarisch):
Event ID 129, vioscsi
Ein Zurücksetzen auf Gerät "\Device\RaidPort0" wurde ausgegeben.
Event ID 159, ExchangeStorageDBAt
'16.11.2021 08:18:53' the Exchange store database 'MBX02' copy on this server timed out on one or more Hung IOs. For more details about the failure, consult the Event log on the server for other storage and "ExchangeStoreDb" events.
EventID 532, ESE
Information Store - MBX02 (16268,R,0,15.02.0986.009) MBX02: Eine Anforderung zum Lesen aus der Datei "C:\MountPoints\LOG\MBX02\E0000000F1C.log" bei Offset 790528 (0x00000000000c1000) für 258048 (0x0003f000) Bytes wurde 244 Sekunde(n) lang nicht abgeschlossen. Dieses Problem wird wahrscheinlich durch fehlerhafte Hardware verursacht. Wenden Sie sich an den Hardwarelieferanten, um Hilfe bei der Problemdiagnose zu erhalten.
EventID 498, ESE
msexchangerepl (7208,G,0,15.02.0986.009) Fehler beim Versuch, Datei "C:\MountPoints\DB\MBX04\mbx04.edb" für den Lesezugriff zu öffnen, mit Systemfehler 32 (0x00000020): "Der Prozess kann nicht auf die Datei zugreifen, da sie von einem anderen Prozess verwendet wird. ". Fehler -1032 (0xfffffbf8) bei der Operation zum Öffnen von Dateien.
Nach wenigen Minuten, stellen die VMs Ihren Dienst ein, verlieren die Laufwerke und reagieren nicht mehr (kein shutdown möglich).
Der PROXMOX Support war bisher wenig hilfreich... uns wurde nahegelegt statt der je 25 Laufwerke, je ein großes Laufwerk zu erstellen.
Hat jemand ähnliche Erfahrungen gemacht oder hat in dieser Konstellation Expertise?
Über eure Erfahrungswerte würde ich mich sehr freuen....
Danke und Gruß!