This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Update failed with HA enabled

Hi,

I have two ASG 320 with HA enabled and the 7.103 firmware on both.
I ran the 7.303 update from the WebAdmin interface and the node 2 (slave) passed on "UP2DATE" status.
The HA log notify that the slave's update failed. Now, the slave stay with the "UP2DATE" status and I can't run an other update. Now, I receive a mail per hour (since 12 hours !!!) which notify :

HA SELFMON WARN: Running during up2date process, aborting! Retry in one hour..

HA Status          : HA MASTER (node id: 1)
System Uptime      : 123 days 12 hours 51 minutes
System Load        : 0.13
System Version     : Astaro Security Gateway 7.103

I think that I have to reboot the slave (It should be hang), but I can't make a manual reboot because I'm far from the datacenter.
Is it possible to reboot the slave by a remote solution ?

Regards.

Trio


This thread was automatically locked due to age.
Parents
  • If you have a support agreement, please open a case- we may be able to assist you in a remote reboot of the slave unit.
  • Hi,

    I have the return from the support.

    I can't made a remote reboot of the slave. I have to connect physically to the slave (VGA & USB), log as root and run this command :

    auisys.plx --rpmargs --force

    Infortunately, I don't know the consequence of this command. I have no explanation from the support. Is it to reboot ? To force the update ?

    Have you any idea ?

    Regards.

    Trio
  • Hi,

    Thanks for your answer. I understand the command now.
    Our ASG is in France.
    Apparently French support can't know how to reboot remotely...

    It's sad ...

    Regards.

    Trio
  • Hi,

    I'm back. I ran the command and reboot three times but the slave is still in 7.202 version ... and in "UP2DATE" status ...

    The master stay with the 7.103 version.
    I don't know what I have to do ...

    1) Upgrade the master on 7.202 to have the same firmwares between master and slave ?
    The problem is that the slave can't become master because is in "UP2DATE" status.
    2) Force the slave on 7.303 version to leave cleanly the "UP2DATE" status ?
    What are the console commands to run the 7.303 update ?

    Have you any solution ?

    Regards.

    Trio
  • I haven't done this exactly as described below, but I did have quite a challenge with a cluster that stalled on both nodes of a cluster going from 7.202 to 7.300.  When you do that Up2Date, you will want to do the temporary load reduction on the Astaro as described below.

    One recent recommendation I've seen is to reduce, temporarily, the load on the Astaro to allow it to complete the upgrade.

    First, do you see the 7.104, 7.200, 7.201 and 7.202 Up2Dates all available on your Master?  If not, download them from Astaro and upload them to the Master.

    Turn off IPS, select 'Single scan' anti-virus scanning for both Web Security and Mail Security.  Turn off logging of any Packet Filter rules.  Turn off HTTP caching.

    Turn off the other node (was Slave) - I guess that it's not handling anything for you at present anyway!

    Now, run on Master the update to latest version.  I don't think you will need to The four Up2Dates will proceed and, after the last reboot of Master, you should be at 7.202 on both machines.

    Once Master is at 7.202, you can turn the other node back on and it should join the Cluster as Slave.

    Bonne chance ! - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Hi,

    A big thanks for your detailed solution !!!
    I see all updates on the WebAdmin (7.104, 7.200, 7.201, 7.202).
    I'll do that on a monday night fever...

    The load problem is strange. I'm average of 4% CPU, 38% of 1003MB for RAM and 12 % of 1027 MB for Swap... A low load... 

    I'll give news tuesday... I hope It works !!!

    Regards.

    Trio
  • @Trio
    if u have physikal access to this cluster, maybe this path will be faster:

    Master:
    disable HA/Cluster
    up2date to 7.304

    Slave:
    boot with fresh iso (7.30x) from cd or astaro-stick and install asg
    up2date to 7.304

    Master:
    setup new cluster

    Volia


    Gregor Kemter
  • Hi,

    Thanks for this other solution.
    But, I have a question.
    My appliance (ASG320) can boot with a USB CD Drive ?
    What is the astaro-stick ?

    Regards.

    Trio
  • The only thing you can do on an Astaro with a USB CD drive (or the Astaro USB stick that emulates a CD drive) is load it from a CD.

    If you want to use Gregor's suggestion for the second (Slave) node:

    Download ASG V7.302:
    astaro internet security

    I'm not sure why Gregor suggests stopping the cluster, but he has been doing this for awhile, so I'll assume he's seen problems caused by not doing so.  In my experience, it's OK to just turn it off.

    Burn the iso to a CD.  Connect the CD to a USB port on the node you want to reload.  .  Turn the ASG on.  In less than ten minutes, the CD will eject.  Turn clustering back on on the Master.  Plug back in the ethernet cables.  Et, voila, Tu y es!

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Hi,

    My appliance (ASG320) can boot with a USB CD Drive ?
    What is the astaro-stick ?
    Trio


    You can boot from either an external USB CD drive or an ASI (Astaro Smart Installer).  The ASI is a USB thumbdrive which emulates an external CD drive (as opposed to common thumbdrives, which emulate an external hard drive).

  • ...
    I'm not sure why Gregor suggests stopping the cluster
    ...


    The reason is :

    Between 7.1xx and 7.3xx alot of changes was made inside internal database, which holds all settings. (Also the DB engine was exchanged)

    If you create a new cluster, the slave will recieve clean data from master.
    In case of resync, master and slave have to resync and recheck all data. And at this point i am not sure if Astaro has made their home work.

    regards 

    Gregor Kemter
  • Thank you, Gregor.

    I often repeat the old observation, "Just because I'm paranoid doesn't mean they're not out to get me!"

    I had the 7.202-->7.300 upgrade fail at a client site with a cluster of two ASG220s.  After waiting for a week for the second node to upgrade, I drove 60 miles to the site to load from a CD.  I was unsure of the sequence of disconnecting cables and shutting down the cluster, so I just pulled the plug on the second node.  After I loaded it from the CD, I turned it off, plugged everything in and turned it on again.  I felt lucky that everything worked.

    So, I agree with your concern about the updating process.  I have never turned clustering off.  What does the slave do then?  Does it do nothing, or does it think it's the new Master and light up the ethernet interfaces?  From what you say, I guess that I was wrong to worry that un-clustering a system in use might create duplicate IP addresses both internally and externally.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
Reply
  • Thank you, Gregor.

    I often repeat the old observation, "Just because I'm paranoid doesn't mean they're not out to get me!"

    I had the 7.202-->7.300 upgrade fail at a client site with a cluster of two ASG220s.  After waiting for a week for the second node to upgrade, I drove 60 miles to the site to load from a CD.  I was unsure of the sequence of disconnecting cables and shutting down the cluster, so I just pulled the plug on the second node.  After I loaded it from the CD, I turned it off, plugged everything in and turned it on again.  I felt lucky that everything worked.

    So, I agree with your concern about the updating process.  I have never turned clustering off.  What does the slave do then?  Does it do nothing, or does it think it's the new Master and light up the ethernet interfaces?  From what you say, I guess that I was wrong to worry that un-clustering a system in use might create duplicate IP addresses both internally and externally.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
Children
  • Hi,

    I'm back with two ASG updated (almost ...) !!!

    I identify the problem.

    First, I think that's better to make a regular update. It's not great to wait a lot of updates !!! Isn't it ? Because when you update a node, the big difference between nodes causes a HA failure. The updated node (which is the slave when you make an update by the WebAdmin) is stucked because of the difference of firmware with the master. But I Have a question.
    If there is a 7.305 firmware, the two ASG are on 7.304, if I update one node (the slave by WebAdmin), at the reboot, It hasn't the same firmware of the master. Will it stucked ? Or is just when the difference is big ?

    Second, when you are in HA mode, the slave don't download the firmwares !!!
    Shame on me ... I didn't know ... The better solution is to reboot the master (I think that's the single solution to switch slave to master), download the update and upload the update to install it.

    Third, I don't have the window to show the update processing. Is it a bug of the WebAdmin ??? A screen plugged on the ASG solve the problem. But remotely, this window will help me.

    Unfortunately, I have a last problem. The pattern don't update. The current pattern version is at 8475 but the latest available pattern version is at 8566.
    Have you an idea ?

    Regards.

    Trio
  • Make sure that your licensing is up-to-date.
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • You will only get patterns for features which are both licensed and active- so you may not always be at the latest pattern.  So, as Bob suggested, check you licensing- then look at what you have active.
  • Hi,

    I have gold to july 2009.
    I don't have web filtering, email filtering, email encryption.
    I only have HA enabled.

    It could be the reason ...

    Regards.

    Trio
  • Without those subscriptions and if you aren't using IPS, then you may be as current as you should be.
  • Hi,

    On my ASG Dashboard, I only have Firewall active, HA active and Intrusion Protection active with 5149 of 7747 patterns (that's the exact message).
    It should be normal... But is it possible to run a manual pattern's update with a command ?

    Regards.

    Trio
  • It looks like you are current with patterns, as it sounds like IPS is the only pattern you should be using and IPS hasn't had a pattern update in many days.

    If you want to force the ASG to check for available downloads, disable automatic pattern updates, wait a moment, then re-enable them- that should launch a fresh download.  Wait ten minutes or so and look at the up2date log, that should tell you if there is a problem.
  • Hi,

    You're right. I have those logs :

    2008:10:29-11:17:01 (none) audld[31208]: Starting Up2Date Package Downloader (Version 1.57) 
    2008:10:29-11:17:02 (none) audld[31208]: id="3701" severity="info" sys="system" sub="up2date" name="Authentication successful" 
    2008:10:29-11:19:01 (none) auisys[31454]: Starting Up2Date Package Installer (Version 1.65) 
    2008:10:29-11:19:01 (none) auisys[31454]: Searching for available up2date packages for type 'ips' 
    2008:10:29-11:19:01 (none) auisys[31454]: id="371D" severity="info" sys="system" sub="up2date" name="No up2date packages available for installation" status="failed" action="install" package="ips" 
    2008:10:29-11:19:01 (none) auisys[31454]: Searching for available up2date packages for type 'ohelp' 
    2008:10:29-11:19:01 (none) auisys[31454]: id="371D" severity="info" sys="system" sub="up2date" name="No up2date packages available for installation" status="failed" action="install" package="ohelp" 
    2008:10:29-11:19:02 (none) auisys[31454]: Searching for available up2date packages for type 'man-app' 
    2008:10:29-11:19:02 (none) auisys[31454]: id="371D" severity="info" sys="system" sub="up2date" name="No up2date packages available for installation" status="failed" action="install" package="man-app" 
    2008:10:29-11:19:02 (none) auisys[31454]: id="3716" severity="info" sys="system" sub="up2date" name="Up2date Package Installer finished, exiting" 

    I think that's all great.

    Regards.

    Trio