Guest User!

You are not Sophos Staff.

This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Problems with Meshed Cluster Setup

Hello,

I am trying to setup a Meshed Cluster Setup as described in the Astaro Cluster Deployment Guide on page 13. As long as all cables are patched everything is working fine.

Now I want to simulate what happens if a cable or device fails. As long as I remove one cable only from one Astaro to one internal switch everything is working as described. But in the case one internal switch fails, the hole link aggregation group on all Astaros go down. All Astaros switch to state 'unlinked' and now traffic is processed.

Can anybody please give me an advice what I did wrong?

Thank you in advance,
Stephan


This thread was automatically locked due to age.
Parents
  • I played a little bit with the settings and here is what I got:

    Setting the HA backup interface to the LAG (lag0) doesn't work. I get the error "The HA backup interface requires an object reference.".

    Setting the HA backup interface to eth4 (external interface) works but doesn't solve my problem.

    But there is something much more interesting:
    If I disconnect eth0 on both devices they stay in "ACTIVE"  state and the connection keeps up and running. The HA log doesn't even notice that the link on eth0 is down.

    If I disconnect eth1 on both devices they switch to "UNLINKED" state and the connection goes down. No pings or anything else possible.
    The HA log shows the following messages:

    2010:07:09-10:27:11 fw-1 ha_daemon[7468]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth1!"
    2010:07:09-10:27:11 fw-2 ha_daemon[8584]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth1!"
    2010:07:09-10:27:15 fw-1 ha_daemon[7468]: id="38A1" severity="warn" sys="System" sub="ha" name="Lost link on interface lag0"
    2010:07:09-10:27:17 fw-2 ha_daemon[8584]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: ACTIVE -> UNLINKED"
    2010:07:09-10:27:17 fw-2 ha_daemon[8584]: id="38A1" severity="warn" sys="System" sub="ha" name="Lost link on interface lag0"
    2010:07:09-10:27:18 fw-1 ha_daemon[7468]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: ACTIVE -> UNLINKED"


    My first thought was that there is a problem with my internal LAN switches so I changed the connections of eth0 and eth1 on both devices. The behavior stays the same. 

    So i assume that there is a problem with link monitoring on my ASGs. I have no idea what I can do next. Any hint is greatly appreciated.

    Thanks,
    Stephan
Reply
  • I played a little bit with the settings and here is what I got:

    Setting the HA backup interface to the LAG (lag0) doesn't work. I get the error "The HA backup interface requires an object reference.".

    Setting the HA backup interface to eth4 (external interface) works but doesn't solve my problem.

    But there is something much more interesting:
    If I disconnect eth0 on both devices they stay in "ACTIVE"  state and the connection keeps up and running. The HA log doesn't even notice that the link on eth0 is down.

    If I disconnect eth1 on both devices they switch to "UNLINKED" state and the connection goes down. No pings or anything else possible.
    The HA log shows the following messages:

    2010:07:09-10:27:11 fw-1 ha_daemon[7468]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth1!"
    2010:07:09-10:27:11 fw-2 ha_daemon[8584]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth1!"
    2010:07:09-10:27:15 fw-1 ha_daemon[7468]: id="38A1" severity="warn" sys="System" sub="ha" name="Lost link on interface lag0"
    2010:07:09-10:27:17 fw-2 ha_daemon[8584]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: ACTIVE -> UNLINKED"
    2010:07:09-10:27:17 fw-2 ha_daemon[8584]: id="38A1" severity="warn" sys="System" sub="ha" name="Lost link on interface lag0"
    2010:07:09-10:27:18 fw-1 ha_daemon[7468]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: ACTIVE -> UNLINKED"


    My first thought was that there is a problem with my internal LAN switches so I changed the connections of eth0 and eth1 on both devices. The behavior stays the same. 

    So i assume that there is a problem with link monitoring on my ASGs. I have no idea what I can do next. Any hint is greatly appreciated.

    Thanks,
    Stephan
Children
No Data