This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

It all went bang!

I had a weird thing happen today and I am hoping that one of you guys can shed some light on why this might have happened and how I could get out of this kind of problem, should it happen again.

I upgraded to v7.101 two days ago. The only reason I did this was because the things you have to pay for on v6.x are free in v7.x (antivirus etc) and if I wanted to continue with my v6.x ASG I would have been up for the cost of a subscription renewal.
This is the first time I have even looked at v7.x, given that I was very happy with my v6.x installation and its performance and it has been a bit of a time consumer building and reconfiguring my new ASG installation (maybe would have been cheaper and easier to pay for a new v6 subscription)

Sorry, I’m babbling on here; I should get to the point of this post.

I was changing the upstream proxy settings when suddenly things just stopped working.
I saw an email arrive in my mailbox stating “ Middleware not running – restarted”. The WebAdmin then went unresponsive and access to the Internet disappeared. I was no longer able to ping the ETH0 interface either.
After trying a few things I decided to do a hard restart of the ASG box. Even after doing this I was unable to ping the ETH0 interface and, therefore, unable to get to the WebAdmin page. Another thing that I did notice was that the ASG when rebooted did not do its usual three beeps when it was finished loading. I rebooted the ASG another three times but there was no change in the situation.
Luckily I had done a backup last night when I had got most things setup on the ASG. I decided to do a rebuild of the box and use this backup. That worked fine and I am back up and running again but, as I am sure anyone reading this would understand, I am a little concerned that I needed to do a rebuild to fix this problem.

I have read some posts about disjointed lock files but, not being a real Linux person, I did not really have any idea how I would identify if this was the cause of the problem I experienced.

No matter what I tried I was unable to make the ASG pingable.
Does anyone have any helpful hints on how this problem could have been resolved, without the need of doing a rebuild?

This is the first tine in the 5+ years of using Astaro as my firewall that I have had to rebuild the box to get basic functionality back.
A bit scary . . .


This thread was automatically locked due to age.
  • FYI, if you have an unencrypted backup file, you can put it on a USB drive and boot Astaro 7, and it should restore the backup.

    Barry
  • Thanks for the reply Barry but knowing that only doing a restore/rebuild will fix this type of problem does not really fill me with confidence.

    I know that you, Ian and Simon (to name just a few) have a very good core knowledge of ASG versions and that you all have been very active members on this forum for many years. I was kinda hoping for some Linux tips of where to look and what I could possibly do to track down and hopefully fix an issue like this.
    To be honest, I find version 7.x somewhat "dumbed down" to version 6.x in the granularity of many areas (IPS as a prime example). Some stuff is better but other areas not so much.

    What scares me is that it just stopped working when I was changing some configurations. I have never had that happen before.
  • I've only had a severe problem (and not as severe as this) once, early in the 7.0 series.

    If you have support, use it.

    I know this doesn't help much now, but you can setup Astaro to email backups every night or weekly, so you shouldn't have to worry too much about having to "rebuild".

    I do remember seeing the recent threads about the lock problems, but I don't know much about it. Maybe one of the Astaro staff can help?

    Barry
  • For many years now I have had ASG set to do automatic nightly backups. A simple but invaluble ASG setting.
    Unfotunately I do not have support, being a home user (other than this support forum).
    As I have said previously, this is the first time I have ever had this kind of issue. I was just hoping for a bit of advice on how one would go about trying to fault find, and possibly rectify, the problem of losing ETH0 connectivity. I had full shell access; just could not get to ETH0 IP from any Windows client.
  • Did you see the posts about some NICs losing the ability to automatically crossover after upgrading to 7.100?

    Try swapping the cable for a crossover or vice-versa.

    Barry
  • I had a weird thing happen today and I am hoping that one of you guys can shed some light on why this might have happened and how I could get out of this kind of problem, should it happen again.

    I upgraded to v7.101 two days ago. The only reason I did this was because the things you have to pay for on v6.x are free in v7.x (antivirus etc) and if I wanted to continue with my v6.x ASG I would have been up for the cost of a subscription renewal.
    This is the first time I have even looked at v7.x, given that I was very happy with my v6.x installation and its performance and it has been a bit of a time consumer building and reconfiguring my new ASG installation (maybe would have been cheaper and easier to pay for a new v6 subscription)

    Sorry, I’m babbling on here; I should get to the point of this post.

    I was changing the upstream proxy settings when suddenly things just stopped working.
    I saw an email arrive in my mailbox stating “ Middleware not running – restarted”. The WebAdmin then went unresponsive and access to the Internet disappeared. I was no longer able to ping the ETH0 interface either.
    After trying a few things I decided to do a hard restart of the ASG box. Even after doing this I was unable to ping the ETH0 interface and, therefore, unable to get to the WebAdmin page. Another thing that I did notice was that the ASG when rebooted did not do its usual three beeps when it was finished loading. I rebooted the ASG another three times but there was no change in the situation.
    Luckily I had done a backup last night when I had got most things setup on the ASG. I decided to do a rebuild of the box and use this backup. That worked fine and I am back up and running again but, as I am sure anyone reading this would understand, I am a little concerned that I needed to do a rebuild to fix this problem.

    I have read some posts about disjointed lock files but, not being a real Linux person, I did not really have any idea how I would identify if this was the cause of the problem I experienced.

    No matter what I tried I was unable to make the ASG pingable.
    Does anyone have any helpful hints on how this problem could have been resolved, without the need of doing a rebuild?

    This is the first tine in the 5+ years of using Astaro as my firewall that I have had to rebuild the box to get basic functionality back.
    A bit scary . . .

    every once in a while Astaro gets a bug in it's rear and you have to restore and reload the backup file.  I have hit this from v4 on up to present.  If your machine is working fine just keep a recent backup handy and go on.  i do not usually have to reformat/reload more than once a version(unless i am mucking with the internals and i break it)..
  • Thanks for the post William.
    I guess that in nearly every walk of like s*** happens.

    I would be good however to know a little more about how to debug a problem like the one I experienced.
  • To further debug a crash like that, it would be helpful to be able to look at the logfiles, etc. on the unit at the time of the crash; in the event that network connectivity is lost, the only way to do this is via the console (or serial port)... without that, it's impossible to say what might have happened.  The only wierd thing I've had happen with a 7.100 to 7.101 update was 1 customer I had that had a 425a appliance that had two interfaces bridged (all my other customers, at least the ones I manage directly, use it as a NAT router) ... as soon as the up2date finished installing, all traffic through the unit stopped.... though it had not technically crashed (as looking at the logs during the post-mortem revealed)... what had happened is that netfilter "bombed" trying to release / reset the bridge after the update, no doubt related to some attempt to fix the packet filter issues listed in the 7.101 release notes... I saw those message in kernel log repeatedly until I had the customer shut off and restart the unit manually (pull the plug!).  Fortunately the update did install all the way, so it did come back up and work fine after that.  Perhaps something like that happened in your case.
  • I'm not sure if I'm having the same issue as this but my 320 appliance has been pulling #@!$ like this since V7.101.  Apparently the support team over in Germany has seen it before but the US guys haven't been able to tackle it yet and I'm getting tired of working nights/weekends to re-fix the issue each time it happens.

    and FYI for those wondering, I don't think it is bad hardware. It seems to happen when changing routes/interfaces and/or NAT rules so... I'm leaning more towards a big nasty bug...  I often have to toggle routes/NAT rules on/off or off/on for them to take effect on the console (and it doesn't matter how long I wait for the settings to take effect. They don't happen until I toggle it in the GUI)


    anywho... my 2 cents of frustration..
  • Hi BigO,

    a colleague just pointed me to this thread.  I'm in charge of V7 MiddleWare
    development and code maintenance.  What you describe in your posting "It
    all went bang" are typical symptoms of a fatal MiddleWare bug.      
    As you are saying, such bugs are very rare, but when they hit, it's typical 
    for the MiddleWare to ruin basic network connectivity, for the SelfMon
    unsuccessfully trying to restart the MiddleWare and for the problem
    to persist even across reboots. 

    Currently, i have one such issue under investigation (internal 
    Mantis issue #7569).  You are talking about changing the upstream 
    proxy settings - this might indicate you are looking at the same issue.
    I will review the details and come back to you for additional 
    information if needed.


    Hi kury,

    what you are telling about your problem is not sufficient to decide
    whether it might be related; in fact, i would rather say it sounds
    different, but that's guesswork.  As apparently you already started 
    working together with our support team, it's probably best to let   
    the support work it out, just supply the info they are asking for to 
    them.  In case our support engineer needs help, he is welcome to 
    contact me internally...

    Yours,
      Ingo