Search results

  1. I

    [SOLVED] Cluster-Ausfall - VMs nicht erreichbar

    Ich glaube, den Fehler gefunden zu haben. Zumindest konnte ich die Logeinträge und auch einen gelegentlichen Neustart durch den Watchdog nachstellen. Ursächlich ist mutmaßlich Nagios, welches die Abfragen per SSH absetzt. Ich hatte, damit die Abfragen unter Last noch sauber funktionieren und...
  2. I

    [SOLVED] Cluster-Ausfall - VMs nicht erreichbar

    Den zeitlichen Ablauf von Ceph-Fehlern konnte ich inzwischen auch rekonstruieren. 1. mehrere slow ops für 30 Minuten (ab 23:29) 2. "Long heartbeat ping times" auf back und fron interface für 53 Minuten 3. Monitor 1 down, dann Monitor 3 down, Monitor 1 down, dann Monitor 3 down (1:06 - 1:23) 4...
  3. I

    Proxmox, Bridges und mein Heimnetzwerk

    Als Tipp zu Opnsense: in der GUI bei der Interfacezuordnung nur "WAN" zuordnen und LAN erst mal weglassen. Dann wir die anti-lockout-Regel für das WAN-Interface gesetzt und du kommst darüber drauf. In der GUI dann eine Regel erstellen, dass du von WAN auf die WebGUI kommst (damit sind dann...
  4. I

    [SOLVED] Cluster-Ausfall - VMs nicht erreichbar

    Nachdem ich jetzt alle Logs zusammengeschuppst und um den Startzeitraum analysiert habe, habe ich noch folgendes gefunden; 2021-03-06 23:04:30.595 7f9333625700 1 mon.is-master-19@0(electing) e5 collect_metadata : no unique device id for : fallback method has no model nor serial' 2021-03-06...
  5. I

    [SOLVED] Proxmox Crash -> Ursache finden

    Das Problem hatten wir in einem Cluster mal und ebenfalls nichts dazu im Log. Bei uns war es der Watchdog-Dienst, der für einen Neustart gesorgt hatte, wenn etwas zu viel Last drauf war. Nach Umstellung auf den IPMI-Watchdog sehen wir zumindest im IPMI-Log den Watchdog-Trigger.
  6. I

    [SOLVED] Cluster-Ausfall - VMs nicht erreichbar

    Ansonsten habe ich noch timeout von pvestatd gefunden, welche aber sporadisch immer wieder mal auftauchen: Mar 2 14:42:50 is-master-16 pvestatd[1329]: got timeout Mar 2 17:15:29 is-master-16 pvestatd[1329]: got timeout Mar 3 02:46:19 is-master-16 pvestatd[1329]: got timeout Mar 3 03:24:49...
  7. I

    [SOLVED] Cluster-Ausfall - VMs nicht erreichbar

    Hallo zusammen, am Wochenende ist unser Cluster für etwas mehr als 5 Stunden ausgefallen. Die VMs selbst waren nicht eingefroren (atop in jeder VM hat weiter aufgezeichnet, syslog ebenso), hatten aber eine massiv erhöhte Load und waren im Netzwer auch nicht erreichbar. Selbst die DNS-Server...