Hallo,
wir betreiben zwei Proxmox Nodes /Version 4.4-13) im Rechenzentrum. Als Storage kommt ein ISCSI Storage zum Einsatz. Angebunden ist der Storage über Multipath mit 4 Netzwerkkarten, jeweils 2 Netzwerkkarten an zwei verschiedenen Switchen. Der ISCSI Storage ist auch gespielgelt.
Auf dem Storage ist ein LVM. Alle VMs sind auf den Shared ISCSI Storage als LV abgelegt.
Beide Nodes sind als Cluster ohne HA mit Expected votes = 2 konfiguriert. Der Cluster wird später auf 3 Nodes erweitert so wie gefordert. Da ich kein HA verwende kann im Ausfall auch keine Splitbrain Situation entstehen.
Zu meinem Problem. Auf Grund eines Hardware Fehlers ist Node 1 ausgefallen (defekter Controller).
Der Fehler wurde behoben und der Server neu gestartet. Alle virtuellen Maschinen starten wie gewohnt.
Auf allen VMs laufen mySQL Server. Bei 4 der 9 VMs waren die Datenbanken defekt. Ich versuche nun nachzuvollziehen warum.
Mir ist klar daß so etwas im ungünstigsten Fall passieren kann, wenn Schreibvorgänge auf die Festplatte unvollständig sind. Aber mein ISCSI Storage auf welchem die VMs liegen war von dem Defekt nicht betroffen.
Die Festplatten der VMs sind mit der Option "No cache" konfiguriert. Das heißt der Host Page Cache wird nicht verwendet. "Das System informiert das Gastsystem über einen vollständigen Schreibvorgang wenn jeder Block in der Schreibwarteschlage des Storage Systems ist." also in der Schreibwarteschlange meines ISCSI Storage.
"Setting the Cache mode of the hard drive will impact how the host system will notify the guest systems of block write completions. The No cache default means that the guest system will be notified that a write is complete when each block reaches the physical storage write queue, ignoring the host page cache. This provides a good balance between safety and speed."
Unser Auftraggeber stellt nun unsere Virtualisierungslösung und Datensicherheit in Frage.
Deshalb meine Frage gibt es eine Sache die ich bei der Konfiguration eventuell übersehen oder falsch gemacht habe?
Ich bin für jeden Hinweis dankbar.
wir betreiben zwei Proxmox Nodes /Version 4.4-13) im Rechenzentrum. Als Storage kommt ein ISCSI Storage zum Einsatz. Angebunden ist der Storage über Multipath mit 4 Netzwerkkarten, jeweils 2 Netzwerkkarten an zwei verschiedenen Switchen. Der ISCSI Storage ist auch gespielgelt.
Auf dem Storage ist ein LVM. Alle VMs sind auf den Shared ISCSI Storage als LV abgelegt.
Beide Nodes sind als Cluster ohne HA mit Expected votes = 2 konfiguriert. Der Cluster wird später auf 3 Nodes erweitert so wie gefordert. Da ich kein HA verwende kann im Ausfall auch keine Splitbrain Situation entstehen.
Code:
Quorum information
------------------
Date: Tue Dec 12 18:15:11 2017
Quorum provider: corosync_votequorum
Nodes: 2
Node ID: 0x00000001
Ring ID: 1/144
Quorate: Yes
Votequorum information
----------------------
Expected votes: 2
Highest expected: 2
Total votes: 2
Quorum: 1
Flags: 2Node Quorate WaitForAll
Membership information
----------------------
Nodeid Votes Name
0x00000001 1 10.10.10.1 (local)
0x00000002 1 10.10.10.2
Zu meinem Problem. Auf Grund eines Hardware Fehlers ist Node 1 ausgefallen (defekter Controller).
Der Fehler wurde behoben und der Server neu gestartet. Alle virtuellen Maschinen starten wie gewohnt.
Auf allen VMs laufen mySQL Server. Bei 4 der 9 VMs waren die Datenbanken defekt. Ich versuche nun nachzuvollziehen warum.
Mir ist klar daß so etwas im ungünstigsten Fall passieren kann, wenn Schreibvorgänge auf die Festplatte unvollständig sind. Aber mein ISCSI Storage auf welchem die VMs liegen war von dem Defekt nicht betroffen.
Die Festplatten der VMs sind mit der Option "No cache" konfiguriert. Das heißt der Host Page Cache wird nicht verwendet. "Das System informiert das Gastsystem über einen vollständigen Schreibvorgang wenn jeder Block in der Schreibwarteschlage des Storage Systems ist." also in der Schreibwarteschlange meines ISCSI Storage.
"Setting the Cache mode of the hard drive will impact how the host system will notify the guest systems of block write completions. The No cache default means that the guest system will be notified that a write is complete when each block reaches the physical storage write queue, ignoring the host page cache. This provides a good balance between safety and speed."
Unser Auftraggeber stellt nun unsere Virtualisierungslösung und Datensicherheit in Frage.
Deshalb meine Frage gibt es eine Sache die ich bei der Konfiguration eventuell übersehen oder falsch gemacht habe?
Ich bin für jeden Hinweis dankbar.