This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

System grinds to a halt every few days, how do I trouble shoot?

My Astaro install 7.002 is proving to be very unstable in a production environment where we need strong stability. I need some advice of what logs to review to detect where the issue truly is. I am open to it being a hardware issue but wondering how I prove what the true case may be. 

-I have had IPS disabled for about a week, because it is way to flaky.
-New hardware, installs all went smoothly.
-I also don’t have any of the proxy services running as I don’t have internal users.
-I am hosting email, database and web services.

Today’s crash: Around 4:00 PM today the performance of the throughput dropped and moved to a crawl, simultaneously my access to the web admin stopped. But I was still getting limited packets through, until about 10 minutes later the whole system froze.  Luckily, I can remotely power cycle my hardware and after the cycle my system is back up and running smoothly. But it is missing logs from around 8:00AM today until the final episode of death. 

The last entry of the self monitoring log is everything is running fine: (2007:03:13-08:43:55 (none) daemon-watcher[3262]: Watching selfmonng.plx - running fine) then no entries until after my reboot.

Has anyone else been experiencing this type of issue? This also happened to me about 48 hours prior to.  Do I need to start creating issues with Astaro support? What can I look at and take note of to be more helpful in figuring this out? 

Many thanks.


This thread was automatically locked due to age.
  • Nick,
    chasing the same issue on my home system. The syslog has filled and is now automatically deleting files. Trouble is I can't access the ASG until about 1130pm tonight my time.
     
    Hopefully the log will show something this time. I have been chasing this one for a while and Mike_h has a thread on the subject, but no joy so far.
     
    Ian M
  • I have seen this problem on my test 7.002 system... take a look at your HD activity indicator when this starts... does it go "solid" with drive activity?  When I experience the problem, none of the interfaces even respond to a ping (yes, I have it enabled for troubleshooting)... SSH does not work, and neither does Webadmin.  Eventually, after a great while (as in, I walk away and don't mess with it until the next day), it clears itself up... I think it may be something screwy with the swap dumping or something else.  There are no entries in any of the logs that indicate a problem, either.  I will say I seem to see this happen when I download a bunch of big files from http servers... doesn't always happen, but it does seem to be what causes it to freak out... and this is without using the HTTP proxy, IPS enabled (but no "hits" in the log), and relatively few "hits" in the packet filter logs.  I would suggest at this point that you open a ticket with Astaro, if you have an appliance or a commercial license.  Version 6.303 / 6.304 do not exhibit this behaviour.  Others have noted theirs "grinding to a halt" too, you aren't alone in this.
  • If your description of the problem is the same as Bruce's I'd bet it is some sort of memory leak causing the problem leading to lots of swapping.

    If you can leave a console running with "top" updating frequently that should give you a clue.

    Has anyone reported this issue to Astaro?

    If you need rock solid stability, I'd stay with the V6, it has been pretty stable for us.
  • im rebooting the system every 2 days at night. i think that asl 7.002 is not ready for production environment.
  • I'll have to see if I can get a monitor to hook up to it... problem is, is that the problem is somewhat random, and I'll have a hard time "catching it in the act"... I too think it may be a memory leak, as it does seem the one time I happened to be in webadmin right before it started, swap usage spiked to the max...and it returned to normal after about 30 minutes of intense HD activity... did note that the physical ram usage, after this "grind" was complete, was way down (below the normal line)...
  • Sure sounds like a program went out of control and then the Linux kernel OutOfMemory handler killed it. Looking at the system logs might let you know what happened.
  • Which logs?  The kernel logs (or any of the other ones accessible via webadmin) show nothing out of the ordinary happening in the time frame this occurs.
  • Thanks for all the feed back, unfortunately I started with 7.001 just recently, I don't believe they sell V6.  I haven’t noticed the HD light being stuck on, but the ASL is about 25 miles away in a datacenter. I am now cycling the power remotely. I don’t see anything in the Kernel Logs to lead me in any direction. 

    I sent my issue to Astaro Support yesterday and have yet to hear any response back from their team. I have bugged my local distributor, whom I purchased the software from and even had help setup the solution.  But it sounds like they are not experienced enough with V7, they just say how V6 is so wonderful! I think they are in for a rude awaking with accounting/reporting being removed and V7’s lack of stability so far.

    I am on the verge of wishing I just kept with Sonicwall. I know ASL die-hards hate them, but at least they run for years without dieing and support most of the options that I was wanting. The only draw back was going to be the cost of the Pro level Sonicwall that I needed for throughput and connections.
  • V7 will be wonderful, once they get the bugs worked out... is there a way you can have someone at the datacenter look at the HD light when it flips out?  It would be useful information for the Astaro support folks to have.. you can point them at this thread too, if you'd like.  You can load V6 (the ISOs are on their FTP site) and use a V7 License on it, if Astaro can't solve your problem quickly enough.  You would have to generate a new configuration manually, of course.
  • well, we now have a 220 in production. I'll let you all know how that goes from time to time.