This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

It all went bang!

I had a weird thing happen today and I am hoping that one of you guys can shed some light on why this might have happened and how I could get out of this kind of problem, should it happen again.

I upgraded to v7.101 two days ago. The only reason I did this was because the things you have to pay for on v6.x are free in v7.x (antivirus etc) and if I wanted to continue with my v6.x ASG I would have been up for the cost of a subscription renewal.
This is the first time I have even looked at v7.x, given that I was very happy with my v6.x installation and its performance and it has been a bit of a time consumer building and reconfiguring my new ASG installation (maybe would have been cheaper and easier to pay for a new v6 subscription)

Sorry, I’m babbling on here; I should get to the point of this post.

I was changing the upstream proxy settings when suddenly things just stopped working.
I saw an email arrive in my mailbox stating “ Middleware not running – restarted”. The WebAdmin then went unresponsive and access to the Internet disappeared. I was no longer able to ping the ETH0 interface either.
After trying a few things I decided to do a hard restart of the ASG box. Even after doing this I was unable to ping the ETH0 interface and, therefore, unable to get to the WebAdmin page. Another thing that I did notice was that the ASG when rebooted did not do its usual three beeps when it was finished loading. I rebooted the ASG another three times but there was no change in the situation.
Luckily I had done a backup last night when I had got most things setup on the ASG. I decided to do a rebuild of the box and use this backup. That worked fine and I am back up and running again but, as I am sure anyone reading this would understand, I am a little concerned that I needed to do a rebuild to fix this problem.

I have read some posts about disjointed lock files but, not being a real Linux person, I did not really have any idea how I would identify if this was the cause of the problem I experienced.

No matter what I tried I was unable to make the ASG pingable.
Does anyone have any helpful hints on how this problem could have been resolved, without the need of doing a rebuild?

This is the first tine in the 5+ years of using Astaro as my firewall that I have had to rebuild the box to get basic functionality back.
A bit scary . . .


This thread was automatically locked due to age.
Parents
  • I had a weird thing happen today and I am hoping that one of you guys can shed some light on why this might have happened and how I could get out of this kind of problem, should it happen again.

    I upgraded to v7.101 two days ago. The only reason I did this was because the things you have to pay for on v6.x are free in v7.x (antivirus etc) and if I wanted to continue with my v6.x ASG I would have been up for the cost of a subscription renewal.
    This is the first time I have even looked at v7.x, given that I was very happy with my v6.x installation and its performance and it has been a bit of a time consumer building and reconfiguring my new ASG installation (maybe would have been cheaper and easier to pay for a new v6 subscription)

    Sorry, I’m babbling on here; I should get to the point of this post.

    I was changing the upstream proxy settings when suddenly things just stopped working.
    I saw an email arrive in my mailbox stating “ Middleware not running – restarted”. The WebAdmin then went unresponsive and access to the Internet disappeared. I was no longer able to ping the ETH0 interface either.
    After trying a few things I decided to do a hard restart of the ASG box. Even after doing this I was unable to ping the ETH0 interface and, therefore, unable to get to the WebAdmin page. Another thing that I did notice was that the ASG when rebooted did not do its usual three beeps when it was finished loading. I rebooted the ASG another three times but there was no change in the situation.
    Luckily I had done a backup last night when I had got most things setup on the ASG. I decided to do a rebuild of the box and use this backup. That worked fine and I am back up and running again but, as I am sure anyone reading this would understand, I am a little concerned that I needed to do a rebuild to fix this problem.

    I have read some posts about disjointed lock files but, not being a real Linux person, I did not really have any idea how I would identify if this was the cause of the problem I experienced.

    No matter what I tried I was unable to make the ASG pingable.
    Does anyone have any helpful hints on how this problem could have been resolved, without the need of doing a rebuild?

    This is the first tine in the 5+ years of using Astaro as my firewall that I have had to rebuild the box to get basic functionality back.
    A bit scary . . .

    every once in a while Astaro gets a bug in it's rear and you have to restore and reload the backup file.  I have hit this from v4 on up to present.  If your machine is working fine just keep a recent backup handy and go on.  i do not usually have to reformat/reload more than once a version(unless i am mucking with the internals and i break it)..
  • Thanks for the post William.
    I guess that in nearly every walk of like s*** happens.

    I would be good however to know a little more about how to debug a problem like the one I experienced.
  • To further debug a crash like that, it would be helpful to be able to look at the logfiles, etc. on the unit at the time of the crash; in the event that network connectivity is lost, the only way to do this is via the console (or serial port)... without that, it's impossible to say what might have happened.  The only wierd thing I've had happen with a 7.100 to 7.101 update was 1 customer I had that had a 425a appliance that had two interfaces bridged (all my other customers, at least the ones I manage directly, use it as a NAT router) ... as soon as the up2date finished installing, all traffic through the unit stopped.... though it had not technically crashed (as looking at the logs during the post-mortem revealed)... what had happened is that netfilter "bombed" trying to release / reset the bridge after the update, no doubt related to some attempt to fix the packet filter issues listed in the 7.101 release notes... I saw those message in kernel log repeatedly until I had the customer shut off and restart the unit manually (pull the plug!).  Fortunately the update did install all the way, so it did come back up and work fine after that.  Perhaps something like that happened in your case.
Reply
  • To further debug a crash like that, it would be helpful to be able to look at the logfiles, etc. on the unit at the time of the crash; in the event that network connectivity is lost, the only way to do this is via the console (or serial port)... without that, it's impossible to say what might have happened.  The only wierd thing I've had happen with a 7.100 to 7.101 update was 1 customer I had that had a 425a appliance that had two interfaces bridged (all my other customers, at least the ones I manage directly, use it as a NAT router) ... as soon as the up2date finished installing, all traffic through the unit stopped.... though it had not technically crashed (as looking at the logs during the post-mortem revealed)... what had happened is that netfilter "bombed" trying to release / reset the bridge after the update, no doubt related to some attempt to fix the packet filter issues listed in the 7.101 release notes... I saw those message in kernel log repeatedly until I had the customer shut off and restart the unit manually (pull the plug!).  Fortunately the update did install all the way, so it did come back up and work fine after that.  Perhaps something like that happened in your case.
Children
  • I'm not sure if I'm having the same issue as this but my 320 appliance has been pulling #@!$ like this since V7.101.  Apparently the support team over in Germany has seen it before but the US guys haven't been able to tackle it yet and I'm getting tired of working nights/weekends to re-fix the issue each time it happens.

    and FYI for those wondering, I don't think it is bad hardware. It seems to happen when changing routes/interfaces and/or NAT rules so... I'm leaning more towards a big nasty bug...  I often have to toggle routes/NAT rules on/off or off/on for them to take effect on the console (and it doesn't matter how long I wait for the settings to take effect. They don't happen until I toggle it in the GUI)


    anywho... my 2 cents of frustration..