This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

High Availability on VMware not stable

Hi All,

I have an installation on VMware using HA (hot standby).  The systems are stable for the most part, but about once per day things go a bit sideways for a little bit.  It does correct itself, but there is a small outage that results (this is especially troublesome because tunnels may take a few minutes to come back).

The basic setup is that we have two ESX servers, each is running an instance of ASG (downloaded from ftp.astaro.com - VMware image).  eth5 (the sync NIC) is a direct hardware link from one ESX system to another - it doesn't use a vswitch.  I have also used a backup interface but this does not help, regardless of which interface I choose.

So far, I know that some heartbeats are indeed getting lost, but I don't know why.  There are only a few missing sometimes which causes a failover and then a master/master conflict which resolves by using the preferred master.  The one thing that I have done that has helped the problem is increasing the dead_time$ (cc > ha > times > dead_time$) to 6 (from 3).  I am hesitant to increase it further.

So after that long message, my main question: Does anybody know of a way to enable debugging in order to find missing heartbeats?  I can't see why, if one system sends a heartbeat the other doesn't get it because it's a direct hardware link between the two.  Historically, I've seen high load cause this type of problem, but that is not the case here.


This thread was automatically locked due to age.
Parents
  • If they packets are lost (dropped) you get a log line in the high availability file like:
    "Lost heartbeat message from node %u! Expected %u but got %u"

    If there are no such messages, then packets are delayed and buffered somewhere.

    Is there a pattern in the Master/Master situations? There was one VMware installations I remember creating snapshosts every night which caused also Master/Master situations.

    Cheers
     Ulrich
Reply
  • If they packets are lost (dropped) you get a log line in the high availability file like:
    "Lost heartbeat message from node %u! Expected %u but got %u"

    If there are no such messages, then packets are delayed and buffered somewhere.

    Is there a pattern in the Master/Master situations? There was one VMware installations I remember creating snapshosts every night which caused also Master/Master situations.

    Cheers
     Ulrich
Children
  • Thanks Ulrich,  I really appreciate it.

    I am attaching today's HA log file and one from yesterday (hostname scrubbed).  I don't see the "Lost heartbeat message from node %u! Expected %u but got %u", but I get a lot of missing backup heartbeats.  It was my understanding that if backup heartbeats were lost it wouldn't takeover unless the main heartbeats were missing.  Also, If I disable the backup interface, the behavior is the same.

    I haven't noticed a pattern at all, there is no auto snapshot or anything like that.

    You mentioned that the packets would be buffered, this sounds like a plausible explanation.  In your experience is it buffered in the ASG or somewhere else usually?