This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Problem mit XG210 HA-Cluster a/p

Hallo Community, 

wir haben bei uns nun eine 2te Appliance installiert und diese über Quick-HA als Cluster-Primär konfiguriert. 

Portbelegung:

2x XG210 FW (18.5.2 Build380) mit 10G Flexiport-Modul

LAN = FlexiPortModul LAG -> 20000 Mbps - Full Duplex

Port 2 = WAN 1 100Mbit Telekom DSL (aktiv)

Port 3 = WAN 2 100Mbit Telekom DSL (aktiv)

Port 6 = Quick HA-Interface

Der gesamte Netzverkehr inkl. VLAN´s wird von der Sophos geregelt. 

Unser WLAN wird im Bürogebäude ebenfalls über 3x 530er AP´s und 3x 120er AP´s bereitgestellt, die von der SophosFW gesteuert werden. 

Beim Failover-Ttest haben wir die Primäre vom Strom getrennt, wodurch die 2te zwar übernommen hat, aber nicht natlos. Erst nach etwa 5 Minuten war WLAN und Netzwerk von Clients wieder vollumfänglich nutzbar und die GUI erreichbar. Allerdings sind die WAN´s inaktiv geblieben - sprich kein Internet. 

Auch umstecken der Kabel vom WAN aus der ersten Appliance hat nichts gebracht. Sobald die 1te wieder verfügbar ist, ist auch das WAN wieder aktiv. 

Ebenfalls extrem komisch: Wenn das Failback zur Primären aktiv ist und diese zurückkommt, hätten wir etwa ein Timegap von etwa 10-12 Minuten bis alles wieder normal läuft. Denn erst wenn beide wieder sauber in den "Verfügbar-Status" (Primary/Auxiliary) wechseln, ist alles wieder einwandfrei verfügbar. Shrug‍♀️Face palm‍♂️

Auch der manuelle Wechsel über die GUI führt zu diesem 5-minütigen Ausfall. Das kann so doch nicht gewollt sein?

1. Frage:

Ist das Timegap von etwa 5 Minuten im Aktiv/Passiv-Cluster so normal?

2. Frage

Jemand eine Idee, weshalb die WAN-Ports auf der Primären nicht hochkommen und bei Übernahme der Sekundären kein Internet verfügbar ist?

Hoffe hier gibt´s Ideen zu dem Problem. 

Danke vorab. 



This thread was automatically locked due to age.
Parents
  • Bei einem Takeover dauert der Webadmin einige Zeit, um wieder erreichbar zu sein. Das ist ein gewolltes Verhalten und betrifft nur den Webadmin.

    Wenn WAN Ports nicht erreichbar sind, scheint es mir ein Switch Thema zu sein. Die Modems / Connection zum ISP scheint wohl ein Problem mit der Virtual Mac zu haben? 

    __________________________________________________________________________________________________________________

  • Danke für die Antwort. 

    Ok, das ist wirklich gewolltes Verhalten, dass bei Übernahme mehrere Minuten kein Traffic gesteuert wird? Wie erwähnt gehen wir von den DC-Switchen direkt in die die Sophos die also als Gateway für alle Netze dient. Wenn der Webadmin nicht erreichbar ist, wird die gesamte Appliance als Gateway nicht erreichbar sein?!? Wir haben leider keinen Ping laufen lassen, als wir den Test gemacht haben. 

    Was könnte das für eine Ursache am Switch haben, wenn die gleiche Leitung vorher an der ersten Appliance funktioniert, allerdings nach Abschalten an der 2ten nicht?

  • Ich spreche vom Webadmin, nicht dem Traffic. Der Webadmin ist länger nicht erreichbar. Netzwerk Übernahme sollte sofort passieren ohne Downtime. Wenn du überall Probleme hast, solltest du den Switch näher betrachten. 

    Wir arbeiten mit virtual IP und virtual MAC: docs.sophos.com/.../index.html

    __________________________________________________________________________________________________________________

Reply
  • Ich spreche vom Webadmin, nicht dem Traffic. Der Webadmin ist länger nicht erreichbar. Netzwerk Übernahme sollte sofort passieren ohne Downtime. Wenn du überall Probleme hast, solltest du den Switch näher betrachten. 

    Wir arbeiten mit virtual IP und virtual MAC: docs.sophos.com/.../index.html

    __________________________________________________________________________________________________________________

Children
  • ok, danke habe ich soweit verstanden. 

    Blöd gefragt:

    Muss an dem Switch-Paar eine besondere Config gemacht werden, um mit Virtual-IP und Virtual-Mac umgehen zu können? Was könnte dann nach etwa 5 Minuten passieren, dass es dann doch plötzlich geht?

    Das würde zwar dann zumindest das Problem mit dem LAN erklären, aber nicht mit dem WAN. 

    Vielleicht noch ergänzend: Die Einwahl beim ISP erfolgt ebenfalls durch die Sophos. Kann es sein, dass die Cluster-Slave die Einwahl nicht aktiv vollzieht bzw. aufbauen kann?

  • Switche können das als ARP Spoofing interpretieren, wenn die MAC Adresse wechselt. 

    Das bedeutet die zweite Appliance nutzt die MAC von der ersten Appliance. Es gibt ARP Spoofing oder MAC spoofing in Switchen, die müsste man deaktivieren. 

    __________________________________________________________________________________________________________________

  • Ok, danke. 

    Ich werde das mal versuchen. 

    Das Problem mit dem WAN bleibt jedoch. 

    Hier hangen zwischen DSL-Modem und Sophos nur ein unmanaged Switch pro WAN. Die dürften damit ja keine Probleme haben, oder? 

  • Ein ungemanagter switch kann natürlich auch ein Problem mit "springender" MAC haben. Auch, wenn das hier sicher nicht als Sicherheitsfeature vorgesehen ist. 

    Um was für einen Internet-Anschluss handelt es sich denn? Was für ein Switch ist dazwischen? 

    Bein Failover sind wenige Sekunden Traffic-Unterbrechung normal. Ein Ping auf/über die FW sollte Auskunft geben.

    An der Switch-Konfig ist die sich bewegende MAC meist das Problem. Auch STP und Ähnliches sollte an den Ports optimiert werden. 

    Handelt es sich im DC um einen single-Switch, einen Stack? Ist LACP im Einsatz? Wie sind die Sophos-Ports darauf verteilt?

    PS: ok, ein LAG ist im Einsatz. Hab ich jetzt erst gesehen. Die ist der LACP-Mode auf dem Switch? .. und wie sind die Sophos-Ports in den LAG-Gruppen verteilt? ... hoffentlich nicht eine LAG-Gruppe für Master und Slave zusammen?


    Dirk

    Systema Gesellschaft für angewandte Datentechnik mbH  // Sophos Platinum Partner
    Sophos Solution Partner since 2003
    If a post solves your question, click the 'Verify Answer' link at this post.

  • Sind zwei ToR-Switche mit identischer a/a-Config. Jedoch sind die Ports an der die Slave-Sophos hängt in einer anderen PortChannelGroup als die der Primären.

    Auf der Sophos sind beide Ports logisch in einem LAG und im LACP-Modus konfiguriert?

  • Hört sich erst mal gut an.


    Dirk

    Systema Gesellschaft für angewandte Datentechnik mbH  // Sophos Platinum Partner
    Sophos Solution Partner since 2003
    If a post solves your question, click the 'Verify Answer' link at this post.

  • WinkNeutral face

    Ich werde das mal mit dem ARP versuchen und am WAN einen anderen bzw. keinen Switch probieren und schauen was dann passiert, wenn ich den Stecker ziehe. 

    Vielen Dank schon mal für die Tipps

    Nice Weekend Sunglasses

  • Den Strom-Stecker ziehen ist nicht wirklich nett.

    Da ist ein laufendes Betriebssystem mit offenen Dateien drunter.

    Meist verkraftet es das, ich würde aber erst mal mit Soft-failover testen.


    Dirk

    Systema Gesellschaft für angewandte Datentechnik mbH  // Sophos Platinum Partner
    Sophos Solution Partner since 2003
    If a post solves your question, click the 'Verify Answer' link at this post.

  • Ja, der Soft hat funktioniert, Hart aber auch Stuck out tongue winking eye 

    Das muss sie aushalten Sunglasses