Moin alle zusammen
Wir haben hier in unserem Cluster ein sehr schwer dingfest zu machendes Problem.
Wir hatten einen Server für ein komplexes Kassen/Warenwirtschaftssystem auf Baremetal. Diesen haben wir vor einigen Wochen mithilfe des Herstellers der Software auf unsere PVE Plattform migriert.
Aufgrund gesetzlicher Vorschriften müssen Zahlungsvorgänge in Bar manipulationssicher gespeichert werden. Dies erledigt ein Dienst, den der Hersteller in Zusammenarbeit mit "deutsche Fiskal" auf unserem Server eingerichtet hat.
Der Ablauf ist folgender:
Barvorgang findet statt -> System erzeugt Beleg -> Belegt geht zur fiskal.cloud -> fiskal.cloud signiert und speichert -> Antwort geht an System zurück -> Kundenbeleg wird gedruckt.
Das Problem:
Seit dem Umzug vom Blech auf PVE haben wir sporadisch Probleme mit den Antwortzeiten der deutsche Fiskal.
Seit dem Umzug gibt es immer wieder Zufällig Vorgänge, bei denen die Antwort von der deutsche Fiskal erheblich länger dauert, bis sie beim System eingeht. ich habe Statistiken geführt. 20% aller Vorgänge bekommen erst nach mehr als 3s eine Antwort, und 10% aller Vorgänge werden sogar gar nicht beantwortet.
Unser Monitoring zeigt KEINE Aussetzer der Internetverbindung. Es zeigen sich keine Auffälligkeiten bei der Dauer des Verbindungsaufbaus zur fiskal.cloud. Diese liegen im Bereich von wenigen hundert Millisekunden.
Dennoch bekommen die Mitarbeiter an den Kassen oft Fehlermeldungen, weil die Signatur nicht geklappt hat, oder sie warten mal 10s oder 25 oder bis zum Timeout von 30s auf den Bon. Das ist im Kundenverkehr natürlich untragbar.
Eine Rückfrage bei der deutschen Fiskal hat ergeben, dass die zur Zeit keinerlei Auffälligkeiten haben, konnten aber unsere Logdaten bestätigen und vermuten Probleme mit dem Netzwerk. Diese kann ich aber aufgrund des Monitorings ausschließen.
Und jetzt kommts, weshalb hier Hier danach frage:
Erstmal sieht ja alles nach Internetproblemen oder einem Problem bei der deutsche Fiskal aus. Ich habe aber trotz dessen das wir keine Probleme mit anderen VMs haben, die VM von dem Cluster weg auf einen anderen provisorisch eingerichteten PVE Server außerhalb des Clusters umgezogen und seitdem sind die Probleme weg!
Ich habe so viel getestet und Statistiken erstellt, aber ich habe keine Idee, warum der Server auf dem Cluster so merkwürdige Aussetzer hat.
Hat jemand von euch vielleicht schon mal etwas ähnliches Erlebt? Irgend einen Ansatz wie ich das weiter untersuchen kann?
Wir haben hier in unserem Cluster ein sehr schwer dingfest zu machendes Problem.
PVE Umgebung (wo das Problem bestand)
- 6 Server
- Heterogene Landschaft mit versch. Xeon E5 v4, 8 bis 48 Kerne, 2,1-3,5GHz
- 128GB RAM / Node
- Ceph Storage via 10Gbit Ethernet auf Kioxia SAS SSDs
- 10GBit Ethernet Usernetz
- Single Server
- Xeon E5 v4, 8 Core, 3,5GHz
- 48GB RAM
- RAID 10 HDD Storage
- 10GB Ethernet Usernetz
- 8 Kerne
- 24GB RAM
- 10GBit Ethernet
- Ubuntu 20.04
- Postgresql Datenbanksystem
- 100Mbit synchron Glasfaser
- RTT zu fiskal.cloud ca. 7-9ms
- Erreichbarkeit fiskal.cloud in den letzten Wochen: 100%, nicht ein Paket ist verloren gegangen.
Wir hatten einen Server für ein komplexes Kassen/Warenwirtschaftssystem auf Baremetal. Diesen haben wir vor einigen Wochen mithilfe des Herstellers der Software auf unsere PVE Plattform migriert.
Aufgrund gesetzlicher Vorschriften müssen Zahlungsvorgänge in Bar manipulationssicher gespeichert werden. Dies erledigt ein Dienst, den der Hersteller in Zusammenarbeit mit "deutsche Fiskal" auf unserem Server eingerichtet hat.
Der Ablauf ist folgender:
Barvorgang findet statt -> System erzeugt Beleg -> Belegt geht zur fiskal.cloud -> fiskal.cloud signiert und speichert -> Antwort geht an System zurück -> Kundenbeleg wird gedruckt.
Das Problem:
Seit dem Umzug vom Blech auf PVE haben wir sporadisch Probleme mit den Antwortzeiten der deutsche Fiskal.
Seit dem Umzug gibt es immer wieder Zufällig Vorgänge, bei denen die Antwort von der deutsche Fiskal erheblich länger dauert, bis sie beim System eingeht. ich habe Statistiken geführt. 20% aller Vorgänge bekommen erst nach mehr als 3s eine Antwort, und 10% aller Vorgänge werden sogar gar nicht beantwortet.
Unser Monitoring zeigt KEINE Aussetzer der Internetverbindung. Es zeigen sich keine Auffälligkeiten bei der Dauer des Verbindungsaufbaus zur fiskal.cloud. Diese liegen im Bereich von wenigen hundert Millisekunden.
Dennoch bekommen die Mitarbeiter an den Kassen oft Fehlermeldungen, weil die Signatur nicht geklappt hat, oder sie warten mal 10s oder 25 oder bis zum Timeout von 30s auf den Bon. Das ist im Kundenverkehr natürlich untragbar.
Eine Rückfrage bei der deutschen Fiskal hat ergeben, dass die zur Zeit keinerlei Auffälligkeiten haben, konnten aber unsere Logdaten bestätigen und vermuten Probleme mit dem Netzwerk. Diese kann ich aber aufgrund des Monitorings ausschließen.
Und jetzt kommts, weshalb hier Hier danach frage:
Erstmal sieht ja alles nach Internetproblemen oder einem Problem bei der deutsche Fiskal aus. Ich habe aber trotz dessen das wir keine Probleme mit anderen VMs haben, die VM von dem Cluster weg auf einen anderen provisorisch eingerichteten PVE Server außerhalb des Clusters umgezogen und seitdem sind die Probleme weg!
Ich habe so viel getestet und Statistiken erstellt, aber ich habe keine Idee, warum der Server auf dem Cluster so merkwürdige Aussetzer hat.
Hat jemand von euch vielleicht schon mal etwas ähnliches Erlebt? Irgend einen Ansatz wie ich das weiter untersuchen kann?