Guest User!

You are not Sophos Staff.

[7.904][BUG][CLOSED] Unclean fail-over between nodes

Hi,

Probably linked with the other reported proxy issues with the cluster but I've found the following:

Fail node 2 (slave)
Told node to reboot via the management/high availability.
Graceful fail, no impact.  HTTP/SMTP traffic continued to be processed successfully on node 1.  Reconnected to master, synced and then started to process traffic.

Fail node 1 (master)  > node 2 (slave, promoted to master)
Node 2 promoted to master, webadmin fails (I've always seen this so I believe this is expected behaviour), log in again and see Node 2 as master.
Graceful failover: connections (VoIP, Cisco IPSec router) move across OK.  Node 1 reboots, comes back online as the slave, sync's, then starts processing traffic.

continues to

Astaro automated master promotion - transfer back from node 2 > 1 (1=preferred master)
Ungraceful fail, connections do not move across OK.  
Had to manually shut down one of the WAN links (Eth1, Cable DHCP) before it would become usable even though it showed Up/Up status.  In/out both reported 0/0 kbit.
Parents
  • Back on 19/5 Ulrich confirmed the following (extract from his email):

    "the eth2 interface of Node2 was renamed to eth6 due a buggy realteak driver. The HA virtual MAC address was still set on eth2 during system startup and therefore udev thought the interface is new and renamed it to eth6."

    I was able to limit the impact of the RTL8111/8168B driver issue by turning off PnP OS mgmt in the system BIOS.  This problem however does still reoccur and during the last up2date to 7.920 those interfaces moved offline (the system gets into a bit of a tizz and keeps on renaming devices) - end result was that both nodes were rebuilt from the ISO image and ports reconfigured.

    I guess the "real" workaround is to replace those dual port NICs until the driver is fixed - but I just haven't gotten around to finding a suitable alternative that doesn't use the same RTL8111/8168B driver set [:)]


    Cheers,

    Darren
Reply
  • Back on 19/5 Ulrich confirmed the following (extract from his email):

    "the eth2 interface of Node2 was renamed to eth6 due a buggy realteak driver. The HA virtual MAC address was still set on eth2 during system startup and therefore udev thought the interface is new and renamed it to eth6."

    I was able to limit the impact of the RTL8111/8168B driver issue by turning off PnP OS mgmt in the system BIOS.  This problem however does still reoccur and during the last up2date to 7.920 those interfaces moved offline (the system gets into a bit of a tizz and keeps on renaming devices) - end result was that both nodes were rebuilt from the ISO image and ports reconfigured.

    I guess the "real" workaround is to replace those dual port NICs until the driver is fixed - but I just haven't gotten around to finding a suitable alternative that doesn't use the same RTL8111/8168B driver set [:)]


    Cheers,

    Darren
Children
No Data
Share Feedback
×

Submitted a Tech Support Case lately from the Support Portal?