This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Slave Node Stuck in "UP2DATE" Mode

Began our update process from 7.005 to 7.011 over the weekend and immediately ran into an issue with our Slave node.  

All up2date packages have been downloaded, and the Master node updated to version 7.006 without issue in less than 5 minutes.  The slave node then went into it's up2date process, seeing that the Master was a different version.  The Slave has not recovered from the up2date state for well over 48 hours now.

We're running ASL Software in Active/Passive mode.  Hardware is identical Silicon Mechanics servers, 1gig of RAM each, single AMD Opteron processor, 80G HDD and quad port Intel NICs.

We've restarted the Slave node 3 times during this issue and it does reboot normally:

2007:11:10-00:50:28 (none) ha_daemon[3181]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth1 again!"
2007:11:10-00:50:36 (none) ha_daemon[3181]: id="38A0" severity="info" sys="System" sub="ha" name="Access granted to remote node 2!"
2007:11:10-00:50:39 (none) ha_daemon[3181]: id="38C0" severity="info" sys="System" sub="ha" name="Node 2 is alive!"
2007:11:10-00:50:39 (none) ha_daemon[3181]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: DEAD -> UP2DATE"
2007:11:10-00:50:39 (none) ha_daemon[3181]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 joined with version 7.005"
2007:11:10-00:50:39 (none) ha_daemon[3181]: id="38A0" severity="info" sys="System" sub="ha" name="Waiting for up2date process on unconfigured node 2" 


But, it goes straight back into it's up2date state and we do not know how to get this process finished.  Has anyone experienced a similar issue?  Is there any way of recovering this H/A cluster without breaking it apart and doing updates separately?


This thread was automatically locked due to age.
Parents
  • Do not bring your master down. However, just take the slave out of the network, boot it up and see if the update is finished or correct. You can use a crossover from a laptop to the internal interface to login to webadmin if you need to
Reply
  • Do not bring your master down. However, just take the slave out of the network, boot it up and see if the update is finished or correct. You can use a crossover from a laptop to the internal interface to login to webadmin if you need to
Children
  • The fix is to plus a KVM into the slave node that is currently hung.  Log into the console and su to run: 

    auisys.plx --rpmargs --force

    This forces the slave to update fully to it's current downloaded up2date package level.  Be careful when you do this if your master is not at the current hightest patch.  Our master was at 7.006 when we ran this command on the slave node.  Slave updated all the way to 7.011 and switched into master mode as soon as it was finished rebooting, then forced our master into u2date mode.

    This was fine since we were doing the updates after hours, but just take this into account for your update planning.

    Apparently these updates can hang while installing RPMs.  It seemed like a pretty common issue.

    Thanks for the help!