This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA down

Hi,
last 2 weeks I have problem with subject. 
When I start master(second firewall) ha run sometimes 1hour and sometimes 4hours.
And log(slave) have 
WARNING: UDP Connection is dead! 
WARNING: One (or more) valid Slaves are dead! 

My setup
HA run over  eth4 on both , no serial connection.
Dos Flood Protection for UDP is off. 

Thanks


This thread was automatically locked due to age.
Parents
  • We have the same problem, I seem to be realted to the used hardware. 
    If you check the date on both systems, you will notice that the time is running appart. As longer they run the higher is the time difference between them, and finaly the UDP link stays down too long.

    It seems to be only on some special Intel-Chipset PCIX boards or revisions of them, ours where with dual broadcom gigabit eth onboard. Other test-equipment was not prone to that error (tested differen intel and amd boards). 

    Chris
Reply
  • We have the same problem, I seem to be realted to the used hardware. 
    If you check the date on both systems, you will notice that the time is running appart. As longer they run the higher is the time difference between them, and finaly the UDP link stays down too long.

    It seems to be only on some special Intel-Chipset PCIX boards or revisions of them, ours where with dual broadcom gigabit eth onboard. Other test-equipment was not prone to that error (tested differen intel and amd boards). 

    Chris
Children
  • Hi,
    its possibly, but HA on  ASL version 4.x or 5.x run on the same hardware better.
    Now I tried new install ASL 6.103 for both machine a problem with HA is identical. Master is freeze after 1 hour. When he works alone no problem with ASL  

    Pajo
  • Same here, sometimes its running 8 days without problem, and sometimes the HA dies just after a few hours. 
    No problem in Single-Mode. Are you using PPTP?
  • we have a problem with the slave, when it comes up the systems are synced, but after a while (sometime an hour, sometimes a day) the slave freezes. Can´t use keyboard or anything on slave, have to be resetted. We are using HP DL360G4p with additinal intel quad-card.

    Regards, Lars
  • What version are you using? There seems to be a problem with the HA fix in 6.105.
  • we are still using 6.104. Regards, Lars
  • We have 6.105 version now and problem is same like before. Only start HA on SLAVE is ok.
  • Hi,

    the fix that was offered for our problem by astaro didn't work. My I ask if you have alias ip addresses configured?
  • Hi,
    sure, on WAN(eth1) we have ip aliases  at the begining from ASL 4.017 .

    3: eth1:  mtu 1500 qdisc pfifo_fast qlen 1000
        link/ether 00:04:75:ff:7d:ea brd ff:ff:ff:ff:ff:ff
        inet aaa.bbb.ccc.a/24 brd aaa.bbb.ccc.255 scope global eth1
        inet aaa.bbb.ccc.c/24 brd aaa.bbb.ccc.255 scope global secondary eth1:1
        inet aaa.bbb.ccc.d/24 brd aaa.bbb.ccc.255 scope global secondary eth1:2
        inet aaa.bbb.ccc.e/24 brd aaa.bbb.ccc.255 scope global secondary eth1:3
    ~
  • Thought it could be connected to the Aliases, but just had another HA without Aliases hardlocking (Slave only). No offical info from support itm. The last hint, was that there seems a bug, with ct_sync and smp kernels. As astaro uses suse as core, the smp kernel gets installed as default on many P4 systems. So the only solution it seem is to make sure that the installer isn't installing the smp kernel. 

    Don't know anymore, the Astaro HA solution is causing more downtime than a single device would cause.
  • Thanx for the smp hint: now I have a workaround...

    we have the problem that the slave machine is hanging after a short period. So I read your answer and decided to install the slave machine (hp dl360g4p with two xeons) as a single processor system (classic in install-menue, because nosmp with acpi didn´t worked). Now the slave system is working since 3 days. 

    This is not the the solution, because I wan´t both system as smp-system, but it workes for the meantime until astaro fixes the problems!

    Regards, Lars