This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA-Cluster Shutdown Problem

We have installed ASL V4.016 with a HA-license on a HA-cluster made of two HP/Compaq DL320. In addtion to the two built-in 10/100/1000 NICs, we added a dual-port NIC HP/Compaq NC3134 to each server's (one and only) PCI-slot to end up with 4 NICs. According to the documentation (hardware compatibility list), these NC3134 support heartbeat. So the two servers are connected over one of those ports using a crossover Ethernet cable for the HA-connection.

The installation went well and the HA-cluster came up and worked fine. Up to the point where we issued a shutdown command in WebAdmin. The (active) master server was shutting down as requested and the slave became the active server. Then we also issued a shutdown to the slave (the new ACPI functions in V4.016 now manage to power off the DL320s automatically).

Now here is the problem: After power on of the master it becomes the active server. Then we power on the slave. It comes up and beeps twice. In WebAdmin we can see that the HA-cluster is active and there is connectivity between master and slave (as expected). However, a few moments later (2 to 5 minutes), the master beeps once and unexpectedly shuts down / power off, without us touching the cluster. The slave takes over as active.

When powering the master back on, it comes up and remains inactive. But a few moments later the active slave shuts down and powers itself off. Now the master takes over and becomes active.

This power-on/-off continues to alternate likes this between the two machine. We can not get the cluster up and running anymore, e.g. have both servers powered on at the same time.

We checked the kernel logs and astaro.org, but did not spot anything particular that might hint where to look further. Any ideas what we should try next? Thank you.

Regards,
Rolf
  


This thread was automatically locked due to age.
Parents
  • Solved the problem by deleting an interface which I defined, but disabled because it was not yet in use (4th free NIC port). As these 4th NICs did not have any link beat, the HA logic decided that something must be wrong with the active machine and shut it down!

    So do not define NIC ports and then leave them deactivated in a HA cluster.

    I can now confirm that two DL320G2 with NC3134 dual port NICs works well under Astaro V4.021, including a redundant heartbeat over a serial connection. Will eventually give it a try with V5/V4.711.

    Thanks to Astaro support for asking me the right questions!

    Rolf 
Reply
  • Solved the problem by deleting an interface which I defined, but disabled because it was not yet in use (4th free NIC port). As these 4th NICs did not have any link beat, the HA logic decided that something must be wrong with the active machine and shut it down!

    So do not define NIC ports and then leave them deactivated in a HA cluster.

    I can now confirm that two DL320G2 with NC3134 dual port NICs works well under Astaro V4.021, including a redundant heartbeat over a serial connection. Will eventually give it a try with V5/V4.711.

    Thanks to Astaro support for asking me the right questions!

    Rolf 
Children
No Data