This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Problem mit XG210 HA-Cluster a/p

Hallo Community, 

wir haben bei uns nun eine 2te Appliance installiert und diese über Quick-HA als Cluster-Primär konfiguriert. 

Portbelegung:

2x XG210 FW (18.5.2 Build380) mit 10G Flexiport-Modul

LAN = FlexiPortModul LAG -> 20000 Mbps - Full Duplex

Port 2 = WAN 1 100Mbit Telekom DSL (aktiv)

Port 3 = WAN 2 100Mbit Telekom DSL (aktiv)

Port 6 = Quick HA-Interface

Der gesamte Netzverkehr inkl. VLAN´s wird von der Sophos geregelt. 

Unser WLAN wird im Bürogebäude ebenfalls über 3x 530er AP´s und 3x 120er AP´s bereitgestellt, die von der SophosFW gesteuert werden. 

Beim Failover-Ttest haben wir die Primäre vom Strom getrennt, wodurch die 2te zwar übernommen hat, aber nicht natlos. Erst nach etwa 5 Minuten war WLAN und Netzwerk von Clients wieder vollumfänglich nutzbar und die GUI erreichbar. Allerdings sind die WAN´s inaktiv geblieben - sprich kein Internet. 

Auch umstecken der Kabel vom WAN aus der ersten Appliance hat nichts gebracht. Sobald die 1te wieder verfügbar ist, ist auch das WAN wieder aktiv. 

Ebenfalls extrem komisch: Wenn das Failback zur Primären aktiv ist und diese zurückkommt, hätten wir etwa ein Timegap von etwa 10-12 Minuten bis alles wieder normal läuft. Denn erst wenn beide wieder sauber in den "Verfügbar-Status" (Primary/Auxiliary) wechseln, ist alles wieder einwandfrei verfügbar. Shrug‍♀️Face palm‍♂️

Auch der manuelle Wechsel über die GUI führt zu diesem 5-minütigen Ausfall. Das kann so doch nicht gewollt sein?

1. Frage:

Ist das Timegap von etwa 5 Minuten im Aktiv/Passiv-Cluster so normal?

2. Frage

Jemand eine Idee, weshalb die WAN-Ports auf der Primären nicht hochkommen und bei Übernahme der Sekundären kein Internet verfügbar ist?

Hoffe hier gibt´s Ideen zu dem Problem. 

Danke vorab. 



This thread was automatically locked due to age.
Parents
  • Hallo,

    kannst Du bitte mal ein Bild mit der Verkabelung der Switche, VLANs, Firewall und Internetanbindung posten?

    Insbesondere:
    Sind die Switche gestackt oder standalone?
    Bei Aruba z.B. gäbe es schon mal 3 Anschlussmöglichkeiten:
    Portgruppe als Distributed Trunk an beiden Switchen
    Portgruppe als Trunk an jeweils einem Switch
    Switch als Stack konfiguriert. Sinnvoller aber nicht notwendigerweise Kabel der LAG an beiden Switchen angeschlossen.

    Ansonsten kann ich nur das beschriebene bestätigen. Bei einem Failover wie z.B. Update oder manuell angestoßen gehen bei uns maximal 2 Pings verloren. Wir routen an den kleineren Standorten ebenfalls die Netze über die Firewall. Die Verfügbarkeit des Webinterfaces dauert auch bei einer XG 550 einige Minuten und/oder ist sehr langsam. Der Internetzugang (über MPLS) ist ebenfalls sofort wieder verfügbar.

    Falls sich die Ausfallzeit verifizieren lässt würde ich mal die ARP Tabelle in den beiden Switchen kurz nach dem Schwenk löschen und schauen ob das dann schneller geht.

    Ebenfalls die Logfiles der Switche analysieren.

    Falls ihr SD-WAN Regeln statt normaler Routen verwendet könnte es ebenfalls zu komischen Effekten kommen allerdings eher bei einem Reboot. Wir hatten kürzlich durch einen Konfigurationsfehler ein fehlerhafte SD-WAN Regel (Quellnetz Any) implementiert. Die Firewall hat kurz funktioniert und nach 2-3 Minuten allen Verkehr inclusive Management in ein schwarzes Loch geschickt. Hier ist insbesondere auch die Routing Policy zu betrachten.


    Gruß
    BeEf

Reply
  • Hallo,

    kannst Du bitte mal ein Bild mit der Verkabelung der Switche, VLANs, Firewall und Internetanbindung posten?

    Insbesondere:
    Sind die Switche gestackt oder standalone?
    Bei Aruba z.B. gäbe es schon mal 3 Anschlussmöglichkeiten:
    Portgruppe als Distributed Trunk an beiden Switchen
    Portgruppe als Trunk an jeweils einem Switch
    Switch als Stack konfiguriert. Sinnvoller aber nicht notwendigerweise Kabel der LAG an beiden Switchen angeschlossen.

    Ansonsten kann ich nur das beschriebene bestätigen. Bei einem Failover wie z.B. Update oder manuell angestoßen gehen bei uns maximal 2 Pings verloren. Wir routen an den kleineren Standorten ebenfalls die Netze über die Firewall. Die Verfügbarkeit des Webinterfaces dauert auch bei einer XG 550 einige Minuten und/oder ist sehr langsam. Der Internetzugang (über MPLS) ist ebenfalls sofort wieder verfügbar.

    Falls sich die Ausfallzeit verifizieren lässt würde ich mal die ARP Tabelle in den beiden Switchen kurz nach dem Schwenk löschen und schauen ob das dann schneller geht.

    Ebenfalls die Logfiles der Switche analysieren.

    Falls ihr SD-WAN Regeln statt normaler Routen verwendet könnte es ebenfalls zu komischen Effekten kommen allerdings eher bei einem Reboot. Wir hatten kürzlich durch einen Konfigurationsfehler ein fehlerhafte SD-WAN Regel (Quellnetz Any) implementiert. Die Firewall hat kurz funktioniert und nach 2-3 Minuten allen Verkehr inclusive Management in ein schwarzes Loch geschickt. Hier ist insbesondere auch die Routing Policy zu betrachten.


    Gruß
    BeEf

Children
  • Hallo,

    Sorry für die späte Rückmeldung.

    Wir haben jetzt umgesteckt und die Portgruppe je XG als Trunk an jeweils einem Switch und die Config entsprechend geändert. Jetzt funktioniert der Failover und wir hatten jetzt an einem unserer VerThumbsupilerswitche einen max. Pingverlust von 600ms. Auch die SophosWLAN AP´s haben jetzt ohne Ausfall funktioniert. Thumbsup Aber trotzdem ganz schön zickige Angelegenheit...Unamused

    Die Geschichte mit dem WAN liegt vermutlich auch an den unmannaged-Switches. Ich habe an der Slave jetzt nur einen WAN Port gesteckt und lasse auch nur das LAG und diesen einen WAN-Port überwachen, dann funktioniert auch der Failover mit WAN. Wir tauschen die Switche gegen managedSW mit Log und können dann auch prüfen woran es liegt. 

    Vielen Dank für die Hilfe @all


  • Vorher war die Portgruppe an beiden Switchen angeschlossen? Konnten die Switche denn verteilte Protgruppen?
    Ansonsten wäre das m.E. eine Fehlkonfiguration weil die beiden Leitungen an den Switchen nicht wissen dass sie zusammen gehören ?!