This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

System grinds to a halt every few days, how do I trouble shoot?

My Astaro install 7.002 is proving to be very unstable in a production environment where we need strong stability. I need some advice of what logs to review to detect where the issue truly is. I am open to it being a hardware issue but wondering how I prove what the true case may be. 

-I have had IPS disabled for about a week, because it is way to flaky.
-New hardware, installs all went smoothly.
-I also don’t have any of the proxy services running as I don’t have internal users.
-I am hosting email, database and web services.

Today’s crash: Around 4:00 PM today the performance of the throughput dropped and moved to a crawl, simultaneously my access to the web admin stopped. But I was still getting limited packets through, until about 10 minutes later the whole system froze.  Luckily, I can remotely power cycle my hardware and after the cycle my system is back up and running smoothly. But it is missing logs from around 8:00AM today until the final episode of death. 

The last entry of the self monitoring log is everything is running fine: (2007:03:13-08:43:55 (none) daemon-watcher[3262]: Watching selfmonng.plx - running fine) then no entries until after my reboot.

Has anyone else been experiencing this type of issue? This also happened to me about 48 hours prior to.  Do I need to start creating issues with Astaro support? What can I look at and take note of to be more helpful in figuring this out? 

Many thanks.


This thread was automatically locked due to age.
Parents
  • I have seen this problem on my test 7.002 system... take a look at your HD activity indicator when this starts... does it go "solid" with drive activity?  When I experience the problem, none of the interfaces even respond to a ping (yes, I have it enabled for troubleshooting)... SSH does not work, and neither does Webadmin.  Eventually, after a great while (as in, I walk away and don't mess with it until the next day), it clears itself up... I think it may be something screwy with the swap dumping or something else.  There are no entries in any of the logs that indicate a problem, either.  I will say I seem to see this happen when I download a bunch of big files from http servers... doesn't always happen, but it does seem to be what causes it to freak out... and this is without using the HTTP proxy, IPS enabled (but no "hits" in the log), and relatively few "hits" in the packet filter logs.  I would suggest at this point that you open a ticket with Astaro, if you have an appliance or a commercial license.  Version 6.303 / 6.304 do not exhibit this behaviour.  Others have noted theirs "grinding to a halt" too, you aren't alone in this.
Reply
  • I have seen this problem on my test 7.002 system... take a look at your HD activity indicator when this starts... does it go "solid" with drive activity?  When I experience the problem, none of the interfaces even respond to a ping (yes, I have it enabled for troubleshooting)... SSH does not work, and neither does Webadmin.  Eventually, after a great while (as in, I walk away and don't mess with it until the next day), it clears itself up... I think it may be something screwy with the swap dumping or something else.  There are no entries in any of the logs that indicate a problem, either.  I will say I seem to see this happen when I download a bunch of big files from http servers... doesn't always happen, but it does seem to be what causes it to freak out... and this is without using the HTTP proxy, IPS enabled (but no "hits" in the log), and relatively few "hits" in the packet filter logs.  I would suggest at this point that you open a ticket with Astaro, if you have an appliance or a commercial license.  Version 6.303 / 6.304 do not exhibit this behaviour.  Others have noted theirs "grinding to a halt" too, you aren't alone in this.
Children
No Data