Guest User!

You are not Sophos Staff.

[7.950][BUG][FIXED] Cluster fails to upgrade to 7.950

Hi,

The cluster downloaded the updates and I tried to kick off the automatic update process.  Slave node received the update first (as usual), it appeared to apply OK, automatically rebooted but never left the up2date process despite the log file showing that a successful sync had occurred.  Left for about 8 hours and still no change, rebooted slave node, came back but master continued to report it was in the up2date mode.

Cheers,

Darren
Parents
  • Only way I could get the cluster to update was to shut down the slave node (which had already updated to 7.950), reboot the master, then run the up2date on the master node so it updated to 7.950.  Once the master had rebooted I turned the slave node back on and the node sync was successfully performed which allowed both nodes to move back to active state.

    Cluster had config error again - which seems to occur every time either a new node is joined or the up2date process runs:
    2010:06:20-01:10:35 mercury-3 slon[15430]: [30-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2010:06:20-01:10:35 mercury-3 slon[15430]: [30-2] LINE 1: select last_value::int4 from "_asg_cluster".sl_local_node_id
    2010:06:20-01:10:35 mercury-3 slon[15430]: [30-3]                                      ^
    2010:06:20-01:10:35 mercury-3 slon[15430]: [31-1] FATAL  main: Node is not initialized properly - sleep 10s

    This error is usually fixed during the early morning automated database sync/clean-up process but sometimes it can take two cycles to clear.  Impact on environment: node showing the error does not process traffic until it's fixed.
Reply
  • Only way I could get the cluster to update was to shut down the slave node (which had already updated to 7.950), reboot the master, then run the up2date on the master node so it updated to 7.950.  Once the master had rebooted I turned the slave node back on and the node sync was successfully performed which allowed both nodes to move back to active state.

    Cluster had config error again - which seems to occur every time either a new node is joined or the up2date process runs:
    2010:06:20-01:10:35 mercury-3 slon[15430]: [30-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2010:06:20-01:10:35 mercury-3 slon[15430]: [30-2] LINE 1: select last_value::int4 from "_asg_cluster".sl_local_node_id
    2010:06:20-01:10:35 mercury-3 slon[15430]: [30-3]                                      ^
    2010:06:20-01:10:35 mercury-3 slon[15430]: [31-1] FATAL  main: Node is not initialized properly - sleep 10s

    This error is usually fixed during the early morning automated database sync/clean-up process but sometimes it can take two cycles to clear.  Impact on environment: node showing the error does not process traffic until it's fixed.
Children
No Data