Sehr geehrte Damen und Herren,
wir haben einen Proxmox-Cluster aus 13 Maschinen aufgebaut, davon sind 9 Maschinen kleine Shuttle-PC vom Typ DH110, Geräte die für den Dauerbetrieb zertifiziert sind und die im Einzeltest unter Proxmox 4.x ein Jahr störungsfrei gelaufen sind.
2 Maschinen sind ätere 19-Zoll-Server von Supermicro, ein Server (für Oracle-VM) ist nagelneu, ein ESX-zertifizierter Xeon E3-Server von Supermicro.
Bis auf den letzten (neuesten) Server haben alle Rechner das Storage für die VMs auf einer QNAP TVS 871RP mit 8x Seagate- XF1230-1A0960 ST200354 Server-SSDs im Raid5 und 10GByte - Kupfer-LAN (über 10 GB Switches von DLink) und legen dort die QCOW2-Platten via nfs ab.
Der neueste Supermicro-Server hat ein lokales RAID-5-Storage mit SSD-Platten.
Die Cluster-Rechner sind weiterhin an 2 weitere Qnaps angebunden, eine ist im Standby falls die Haupt-QNAP ausfällt und hat im Normalbetrieb keine aktive Rolle. Die 3. Qnap wird als Sicherungsstorage verwendet.
Sicherungen werden jeden Tag über den Tag verteilt von den "wichtigen" Datenservern ausgeführt: das ist ein Fileserver mit 5 virtuellen Platten und mehrere Datenbank-Server mit je 2 virtuellen Platten. Die wichtigste Maschine treibt eine Oracle-Datenbank und liegt auf der erwähnten neuesten Supermicro-Maschine mit eigenem Plattenarray (nicht via NFS auf Qnap).
Was jetzt 2 mal passiert ist, ist der Grund fuer die Anfrage:
Der Oracle-Server (auf der lokalen Storage) wurde beim Backup (Variante: Stop) so beschädigt, daß die 2. virtuelle Platte nicht mehr gemountet werden konnte. Wir mussten aus der Sicherung ein Restore einspielen. Die Maschine ist ein Oracle-Linux (neuester Stand)
Das zweite Fall betraf den Fileserver: Dort ist eine der virtuellen Platten von der VM als Readonly eingestuft worden. Diesen Fall hattten wir auch schon einige Male, das konnte aber immer durch einen Reboot der VM behoben werden. Diesmal nicht. Eine der QCOW2-Platten musste manuell repariert werden.
Jetzt die Frage: Gibt es irgendwo innerhalb der Konfiguration etwas, das diese Art von Fehler hervorruft ? Wir hatten bis jetzt Glück, aber zumindest für die kritischen Server überlegen wir ernsthaft wieder zu VMWare ESXI zurückzuwechseln, da mit weniger Glück eine kleine Katastrophe eingetreten wäre mit zumindest bei der Datenbank dramatischem Datenverlust.
Unsere Beobachtungen gehen in die Richtung der Backups. Es hat in beiden Fällen Probleme mit den Sicherungen gegeben. Es passiert gelegentlich (aus mir unerklärlichen Gründen) , daß es einen Backupstau gibt. Dies äußert sich darin, dass die Datenbank sich tagsüber ausschaltet und sichert, obwohl die Sicherung auf 23:00 Uhr terminiert ist. Dies war zumindest der defekten Oracle-VM-Platte vorausgegangen.
Die Software auf dem Cluster habe ich vor ca. 3 Wochen auf den neuesten 4.x-Stand aktualisiert.
Falls Sie weitere Details brauchen, bitte sagen Sie mir, welche.
Vielen Dank im Voraus und Grüße nach Österreich,
Martin Panter
wir haben einen Proxmox-Cluster aus 13 Maschinen aufgebaut, davon sind 9 Maschinen kleine Shuttle-PC vom Typ DH110, Geräte die für den Dauerbetrieb zertifiziert sind und die im Einzeltest unter Proxmox 4.x ein Jahr störungsfrei gelaufen sind.
2 Maschinen sind ätere 19-Zoll-Server von Supermicro, ein Server (für Oracle-VM) ist nagelneu, ein ESX-zertifizierter Xeon E3-Server von Supermicro.
Bis auf den letzten (neuesten) Server haben alle Rechner das Storage für die VMs auf einer QNAP TVS 871RP mit 8x Seagate- XF1230-1A0960 ST200354 Server-SSDs im Raid5 und 10GByte - Kupfer-LAN (über 10 GB Switches von DLink) und legen dort die QCOW2-Platten via nfs ab.
Der neueste Supermicro-Server hat ein lokales RAID-5-Storage mit SSD-Platten.
Die Cluster-Rechner sind weiterhin an 2 weitere Qnaps angebunden, eine ist im Standby falls die Haupt-QNAP ausfällt und hat im Normalbetrieb keine aktive Rolle. Die 3. Qnap wird als Sicherungsstorage verwendet.
Sicherungen werden jeden Tag über den Tag verteilt von den "wichtigen" Datenservern ausgeführt: das ist ein Fileserver mit 5 virtuellen Platten und mehrere Datenbank-Server mit je 2 virtuellen Platten. Die wichtigste Maschine treibt eine Oracle-Datenbank und liegt auf der erwähnten neuesten Supermicro-Maschine mit eigenem Plattenarray (nicht via NFS auf Qnap).
Was jetzt 2 mal passiert ist, ist der Grund fuer die Anfrage:
Der Oracle-Server (auf der lokalen Storage) wurde beim Backup (Variante: Stop) so beschädigt, daß die 2. virtuelle Platte nicht mehr gemountet werden konnte. Wir mussten aus der Sicherung ein Restore einspielen. Die Maschine ist ein Oracle-Linux (neuester Stand)
Das zweite Fall betraf den Fileserver: Dort ist eine der virtuellen Platten von der VM als Readonly eingestuft worden. Diesen Fall hattten wir auch schon einige Male, das konnte aber immer durch einen Reboot der VM behoben werden. Diesmal nicht. Eine der QCOW2-Platten musste manuell repariert werden.
Jetzt die Frage: Gibt es irgendwo innerhalb der Konfiguration etwas, das diese Art von Fehler hervorruft ? Wir hatten bis jetzt Glück, aber zumindest für die kritischen Server überlegen wir ernsthaft wieder zu VMWare ESXI zurückzuwechseln, da mit weniger Glück eine kleine Katastrophe eingetreten wäre mit zumindest bei der Datenbank dramatischem Datenverlust.
Unsere Beobachtungen gehen in die Richtung der Backups. Es hat in beiden Fällen Probleme mit den Sicherungen gegeben. Es passiert gelegentlich (aus mir unerklärlichen Gründen) , daß es einen Backupstau gibt. Dies äußert sich darin, dass die Datenbank sich tagsüber ausschaltet und sichert, obwohl die Sicherung auf 23:00 Uhr terminiert ist. Dies war zumindest der defekten Oracle-VM-Platte vorausgegangen.
Die Software auf dem Cluster habe ich vor ca. 3 Wochen auf den neuesten 4.x-Stand aktualisiert.
Falls Sie weitere Details brauchen, bitte sagen Sie mir, welche.
Vielen Dank im Voraus und Grüße nach Österreich,
Martin Panter