This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

System grinds to a halt every few days, how do I trouble shoot?

My Astaro install 7.002 is proving to be very unstable in a production environment where we need strong stability. I need some advice of what logs to review to detect where the issue truly is. I am open to it being a hardware issue but wondering how I prove what the true case may be. 

-I have had IPS disabled for about a week, because it is way to flaky.
-New hardware, installs all went smoothly.
-I also don’t have any of the proxy services running as I don’t have internal users.
-I am hosting email, database and web services.

Today’s crash: Around 4:00 PM today the performance of the throughput dropped and moved to a crawl, simultaneously my access to the web admin stopped. But I was still getting limited packets through, until about 10 minutes later the whole system froze.  Luckily, I can remotely power cycle my hardware and after the cycle my system is back up and running smoothly. But it is missing logs from around 8:00AM today until the final episode of death. 

The last entry of the self monitoring log is everything is running fine: (2007:03:13-08:43:55 (none) daemon-watcher[3262]: Watching selfmonng.plx - running fine) then no entries until after my reboot.

Has anyone else been experiencing this type of issue? This also happened to me about 48 hours prior to.  Do I need to start creating issues with Astaro support? What can I look at and take note of to be more helpful in figuring this out? 

Many thanks.


This thread was automatically locked due to age.

  • ....
    eha, do you have a full process list from when the system became unresponsive?


    Sorry, I have not a full process list. I reinstalled the system - this time without intrusion detection - and it still works (uptime 6d 18h 58m).

    But I see an slowly increasing use of swap space. It was about 16% in the beginning and slowly increased to 25% in teh last 6 days.
  • We have the same problem on an ASG220 / 7.002 cluster. Either RAM fills up or swap fills up. ASG220 dead in 2-3 days. The problem (for us at least) is that httpproxy (ie. web admin) is leaking. When you boot it's around 40Mb, 2-3 days later it's chewing through 1.5Gb of RAM. I'm SSH'ing in every 1-2 days and manually restarting the middleware (perhaps I should cron it lol). I'll check out the vm.swappiness.

    The ASG's are _SERIOUSLY_ underpowered to run 7.00x. If you must run 7 with a lot of proxies running 2-4Gb of RAM is recommended. If you have an ASG downgrade to 6.x. 7 is also very very buggy. But this is nothing new with an new Astaro release. They usually take 6-8 months to get it "right".