This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Sophos UTM HA cluster - Some issues

Hi all,

since nearly 2 weeks I'm using Sophos UTM as HA cluster. Before I'm using ASG and Sophos UTM as single node for over 3 years. I updated yesterday to release 9.207.

With the single node I'm very happy but since running the HA option I see a lot of issues. I don't know where to post them because they are HA related and there's no special HA topic. So I post them here:



    The internet connection seems to have often little breaks, i. e. when working at astaro.org I get often the error that the page is unaivalable. So I have to reload the page for many times.


    My Samsung LED TV can't get access to the internet when the preferred master is running. This node is the original single machine with UTM. When switching to slave node the internet connection works fine. I don't have any error logs on the UTM when the TV couldn't connect to the internet. It gets a reserved internal IP address provided by the UTM via DHCP.


    I get every event on the UTM as mail. When running the master on the preferred machine all the mails are send (Up2Date etc.). When switching to the slave node I didn't get these mails. But when logging on to the console or the web UI I get the mail information about successful logins immediately.

Is anyone here in the forum who has the same issues? For the first point mod2402 is experiencing the same, but is there anyone else?


Can anyone provide solutions? The only solution I see for the moment is to break the HA cluster and have two single systems running. Thanks to virtualization I can deactivate the network connection of the second system with the same IP address and for the case of an issue with the first system I can activate them. That's not very nice, because there's no automation and it is breaking the internet connection for a short time but it would be OK. But I don't think that this is the solution. There must be a lot of HA configurations running in professional networks and I can't imagine that the administrators would be happy having such issues, right?

Kind Regards

TheExpert


This thread was automatically locked due to age.
Parents
  • @Whity
    I stand corrected. OP didn't mention having two separate hosts, each with an UTM instance so I assumed he was running two instances on one host, or an appliance. In the case of two vms on one host, the virtual mac issue doesn't exist.

    @TheExpert
    If you are running two UTM instances in vmware on two separate hosts, then you may well be experiencing this issue in some form. As noted previous, it normally only shows up as connectivity issues for vm's running on the same host as the inactive (spare) node.

    I wonder if perhaps some of your layer two switching is pushing some packets through to the inactive node? Can you show us a diagram of how your network is wired? Of special interest is the TV because it sounds like it may be trying to go through the inactive node.
  • @TheDrew
    I don't have a graphical infrastructure diagram. I try in short words:

    DSL --> AVM FritzBox 7390 --> Sophos UTM --> internal network

    Internal network: DHCP and DNS via Sophos UTM, D-Link DGS-1224t as Layer-2 switch (managed, rebooted because of ARP cache), 2 ESXi hosts, AVM FritzBox 7270 with WLAN etc., 2 TVs (one connected with WLAN, second with LAN on an unmanaged D-Link DGS-1008)

    What's now very confusing to me is that setting manual IP adresses on WLAN or LAN connected devices (physical or virtual) gives internet access but IP adresses from DHCP (static or dynamic) won't get access to internet [:S]. I'm running now a single node by restoring the configuration I made before switching to HA. And this single node is running on the ESXi host where it's hosted for the last years without any issues.

    Update 26.09.2014, 02:17 MEST: Even with a new installation of the UTM on my ESXi 5.1 host and restoring either an older or the latest configuration backup of a single system didn't help. I can resolve hostnames by DNS but with most of my clients I can't get access to the internet because they get a dynamic IP via DHCP from the UTM (release 9.207) - sometimes it works for a few seconds. It permanently works on systems with a manual set IP address from the same IP network.

    Update 26.09.2014, 07:53 MEST: In the morning I started my netbook which I use rarely and it get's access to the internet without setting a manual IP address. So I hoped that the time played for me and all other devices have now the possibility to get access, too. But for these devices nothing changed [:@]. When there's something wrong with MAC address tables on my network switches (I rebooted all the physical ones, not the virtual ones on the ESXi hosts) then I shouldn't get a resolved hostname by DNS, right? This works fine on all devices. Looking in the ARP cache of my tablet (a device without internet access since yesterday) the UTM has the right MAC address which is now the one of the VM itself. Should I restart the both ESXi hosts?

    Update 26.09.2014, 10:33 MEST: After finding out that there are some services not running (VoIP, POP3) on devices where the internet access is working I decided to reboot my both ESXi hosts. But this doesn't solve the issues. There must be something wrong with the UTM. Maybe this is an issue with 9.207? I will now reinstall the UTM with 9.206 and restore an older configuration backup from this release. Without any log entries on the UTM it's difficult to find out the reason. When the reinstallation of the older release doesn't help I have no idea what to do next. I had never such a confusing situation, why some devices or services are working, others not...

    Update 26.09.2014, 12:00 MEST: Reinstalling UTM with 9.206 and restoring a configuration backup with the same release I made before configuring HA doesn't solve my issues. It's the same situation as described before.
  • Hi all,

    after testing a very lot of options and spending a lot of time (see my post above) I need your help. I can't find a scheme to understand what the reason for this really strange behavior is...

    Thank you

    TheExpert
  • Hi all,

    my last chance was to set up a second single UTM machine on my second ESXi host with the same configuration as the UTM on the first ESXi which I shut down. So everything is equal - but not the MAC address. But again, I have the same issues [:@]. This worked fine as I tried before set up a HA pair of the both UTMs.

    Please help. My network infrastructure is nearly unusable.

    TheExpert
  • Hi all,

    after some more time of testing I found out that there must be something wrong with all the proxy daemons (web, POP3, SMTP, VoIP). When setting the proxy on the clients (port 8080) all clients can access the internet. But POP3 didn't work. And there shouldn't be any setting of the proxy on the clients because I configured it as transparent proxy.

    So I installed UTM 9.205 and restored the configuration from 13.08.2014, where my single UTM system worked fine. But again, nothing changed [:@].

    To get a fully working network I decided to install m0n0wall with the same network settings and everything works fine again.

    But this isn't the solution. I'm using the UTM with a lot of services: Proxy, SSL VPN etc. and I want these functionalities back again.

    The log files of the UTM don't show me any errors. Perhabs you have an idea where to look on the UTM for hints solving the issues and how to get a fully working UTM back?

    Thank you

    TheExpert
Reply
  • Hi all,

    after some more time of testing I found out that there must be something wrong with all the proxy daemons (web, POP3, SMTP, VoIP). When setting the proxy on the clients (port 8080) all clients can access the internet. But POP3 didn't work. And there shouldn't be any setting of the proxy on the clients because I configured it as transparent proxy.

    So I installed UTM 9.205 and restored the configuration from 13.08.2014, where my single UTM system worked fine. But again, nothing changed [:@].

    To get a fully working network I decided to install m0n0wall with the same network settings and everything works fine again.

    But this isn't the solution. I'm using the UTM with a lot of services: Proxy, SSL VPN etc. and I want these functionalities back again.

    The log files of the UTM don't show me any errors. Perhabs you have an idea where to look on the UTM for hints solving the issues and how to get a fully working UTM back?

    Thank you

    TheExpert
Children
No Data