This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA Running into CPU problems after 12 hours

I have been having a problem with my HA system since the upgrade to 7.x. After X hours (it used to be 4 now it is up to 12). I get 2008:09:10-01:50:45 (none) ha_daemon[3046]: id="38A1" severity="warn" sys="System" sub="ha" name="Current load average 11.08 of node 2 is to high, please check you system!" 
and the system stops responding. 

This is a software and not an appliance. I have only Intel cards in the box and this box worked great with version 6.x. Also, if I put this box into production it will hang after a similiar number of hours. However, another box with 3com cards and the same config works fine.

Astaro believes it may have something to do with logging but we still can not find a solution. I was hoping 7.301 and the new database would solve it. 

My current thoughts are. 
Replace Network cables
change port in switch
change NICS

Anyone have any other thoughts. Bruce, I am hoping you have seen this. 

Thanks,
Keith

2008:09:10-01:50:45 (none) ha_daemon[3046]: id="38A1" severity="warn" sys="System" sub="ha" name="Current load average 11.08 of node 2 is to high, please check you system!" 
2008:09:10-02:54:48 (none) ha_daemon[3046]: id="38A1" severity="warn" sys="System" sub="ha" name="Current load average 35.97 of node 2 is to high, please check you system!" 
2008:09:10-04:30:24 (none) ha_daemon[3046]: id="38A1" severity="warn" sys="System" sub="ha" name="Current load average 37.38 of node 2 is to high, please check you system!" 
2008:09:10-04:32:34 (none) slon[6424]: [12-1] ERROR remoteListenThread_2: timeout (300 s) for event selection 
2008:09:10-05:32:25 (none) ha_daemon[3046]: id="38A1" severity="warn" sys="System" sub="ha" name="Current load average 46.92 of node 2 is to high, please check you system!" 
2008:09:10-06:34:26 (none) ha_daemon[3046]: id="38A1" severity="warn" sys="System" sub="ha" name="Current load average 25.01 of node 2 is to high, please check you system!" 
2008:09:10-07:42:59 (none) slon[6400]: [16-1] ERROR remoteListenThread_2: timeout (300 s) for event selection


This thread was automatically locked due to age.
Parents
  • I guess you were thinking of me, Keith.  Unfortunately, I have not seen this... Intel NICs should be fine, it's all we use in custom appliances.  Given this is a cluster / HA setup, Astaro is going to be the best help you can have here.  What I would do is SSH into the problem box, run TOP, and see what process(es) is / are going nuts when the load figures go through the roof... that would have to provide some clue to you and Astaro as to what's going on... then pull the logs for the process(es) that is / are eating up the CPU to determine what's going on.

    P.S. While you can change all the components you mention, I doubt they have anything to do with your problem.  See what process is killing the box, then go from there.

    CTO, Convergent Information Security Solutions, LLC

    https://www.convergesecurity.com

    Advice given as posted on this forum does not construe a support relationship or other relationship with Convergent Information Security Solutions, LLC or its subsidiaries.  Use the advice given at your own risk.

  • unfortunately once this thing gets locked up you can no longer ssh over to the HA box. 
    Astaro beleives it might be a logging issue. I am hoping Alan has time to look at it with me. I am not sure.  
    Thanks for your help.
    Keith
  • You could try just leaving a session up until it happens... when it locks up, TOP will probably be displaying the process at the top of the list that is causing the problem.

    CTO, Convergent Information Security Solutions, LLC

    https://www.convergesecurity.com

    Advice given as posted on this forum does not construe a support relationship or other relationship with Convergent Information Security Solutions, LLC or its subsidiaries.  Use the advice given at your own risk.

  • Good thought- I will bounce the back up firewall and actaully go to the console and run top.
    I will update. I might humor myself and replace the HA cable or at least throw new ends on them.

    Thanks,
    Keith
  • Now it is going to prove me wrong - 24 hours and no issues. I am not sure if this is good or bad. I will update on Monday.

    THX,
    Keith
Reply Children
  • OK- Well it acted up again. Top does not show anything but TOP of course. I can ping the HA interface from the master. SSH does not answer from the master to to the slave. The screen is hung at the console so I can not have an issue. 

    My current thought is reseat the NICS and cross all fingers and Toes. 
    HA log shows CPU issue again. The master can not see the slave in the HA console.  Bad memory/Motherboard?  

    I will take a stick out when I reseat the cards.