This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

[Solved] Trouble with HA over Intel Gigabit 4P I350-t Adapter

Hello all,

I am having trouble with our HA/Cluster-Interface on our Dell PowerEdge R420 with two Broadcom NetXtreme BCM5720 onboard and an additional Intel I350 4P Card, since we have updated from 9.106-17 to Version 9.111-007.

We use one port of the Intelcard as the HA/Cluster Interface with all "automatic" settings.

Both machines are identical to each other.

What we have done so far: 
1. replaced the cross-link cable
2. reinstalled UTM 9.111-007 from ISO directly without updating from previous versions
3. replaced the Intel network card on one machine which gave IO Error with mii-diag -s eth4
4. made firmware updates of the network card on both machines from 14.5.9 to 15.0.28
4. replaced the cable again
5. reinstalled the other machine with the iso
6. hard set the speed of the interface in the bios

The results are always the same: after a few minutes ( 45-90 minutes)
The dashboard shows:
Interface: eth4  Name: HA/Cluster Type: Ethernet  Status: On     Link[:D]own

ethttool eth4: established no / link speed unknown (on both machines)
mii-diag -s eth4: Link not established OR  SIOCGMIIREG on eth4 failed: Input/output error

Sometimes this error occurs on node 1, sometimes on node 2 but NEVER on both nodes at the same time.

Also this error only occurs at the x-linked Interface/port of the Intelcard and not on the other interfaces which always have traffic.

lsmod shows that the modules igb and tg3 are loaded and the driver version of the Intel card is 5.0.6

I have no idea what happened, but before the update all things worked fine.

I have search for other topics with this problem and found out, that there was an Intel Network Driver udpate in one of the versions, we did not apply before. Also I found a Mantis ID #30669 at https://community.sophos.com/products/unified-threat-management/astaroorg/f/81/t/65555 which sound similar to our problem, but I have no idea where I can get this patch to try out.

Did any one of you have some hints for me? I could post millions of logs, but none of them seemed plausible to me. The only thing I can see in the system logs of one of the nodes is, that the auto-negotiation switches from 1000 Mbps to 100 to 10 to 100 to 10 to down. The other node just notice "down".

Please help, because this cluster is not in production at the moment but have to be in one or two weeks, so we need a working failover.

Kind regards


This thread was automatically locked due to age.
Parents
  • Hello Bob,

    I have started a request for support for this case.
    You are right, I mean "Hot-Standby". I have forgotten, that there is also a "cluster" mode.
    The MTU is on both machines and interfaces MTU: 2000

    The log only print this:
    2014:05:05-12:46:04 fw-2 ha_daemon[4379]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: lag0 lag1 "
    2014:05:05-12:37:09 fw-1 ha_daemon[4431]: id="38A0" severity="info" sys="System" sub="ha" name="Initial synchronization finished!"
    2014:05:05-12:49:56 fw-2 ha_daemon[4379]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: SYNCING -> ACTIVE"
    2014:05:05-15:23:39 fw-2 ha_daemon[4379]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth4!"
    2014:05:05-15:23:39 fw-2 conntrack-tools[4967]: no dedicated links available!
    2014:05:05-15:23:41 fw-2 ha_daemon[4379]: id="38C1" severity="info" sys="System" sub="ha" name="Node 1 is dead, received no heart beats!"
    2014:05:05-15:23:41 fw-2 repctl[20592]:  daemonize_check(1864): trying to signal daemon


    I have not tried the half duplex mode, but let's face it: this could not be the answer at all.
Reply
  • Hello Bob,

    I have started a request for support for this case.
    You are right, I mean "Hot-Standby". I have forgotten, that there is also a "cluster" mode.
    The MTU is on both machines and interfaces MTU: 2000

    The log only print this:
    2014:05:05-12:46:04 fw-2 ha_daemon[4379]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: lag0 lag1 "
    2014:05:05-12:37:09 fw-1 ha_daemon[4431]: id="38A0" severity="info" sys="System" sub="ha" name="Initial synchronization finished!"
    2014:05:05-12:49:56 fw-2 ha_daemon[4379]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: SYNCING -> ACTIVE"
    2014:05:05-15:23:39 fw-2 ha_daemon[4379]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth4!"
    2014:05:05-15:23:39 fw-2 conntrack-tools[4967]: no dedicated links available!
    2014:05:05-15:23:41 fw-2 ha_daemon[4379]: id="38C1" severity="info" sys="System" sub="ha" name="Node 1 is dead, received no heart beats!"
    2014:05:05-15:23:41 fw-2 repctl[20592]:  daemonize_check(1864): trying to signal daemon


    I have not tried the half duplex mode, but let's face it: this could not be the answer at all.
Children
  • I would try setting the MTU on the HA interfaces back to 1500 (this can be done via the HA_UTILS utility from the shell) ... I have had issues at times with the MTUs set on the HA interfaces higher.

    Other than that, time to have Sophos Support take a crack at it.