This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

System grinds to a halt every few days, how do I trouble shoot?

My Astaro install 7.002 is proving to be very unstable in a production environment where we need strong stability. I need some advice of what logs to review to detect where the issue truly is. I am open to it being a hardware issue but wondering how I prove what the true case may be. 

-I have had IPS disabled for about a week, because it is way to flaky.
-New hardware, installs all went smoothly.
-I also don’t have any of the proxy services running as I don’t have internal users.
-I am hosting email, database and web services.

Today’s crash: Around 4:00 PM today the performance of the throughput dropped and moved to a crawl, simultaneously my access to the web admin stopped. But I was still getting limited packets through, until about 10 minutes later the whole system froze.  Luckily, I can remotely power cycle my hardware and after the cycle my system is back up and running smoothly. But it is missing logs from around 8:00AM today until the final episode of death. 

The last entry of the self monitoring log is everything is running fine: (2007:03:13-08:43:55 (none) daemon-watcher[3262]: Watching selfmonng.plx - running fine) then no entries until after my reboot.

Has anyone else been experiencing this type of issue? This also happened to me about 48 hours prior to.  Do I need to start creating issues with Astaro support? What can I look at and take note of to be more helpful in figuring this out? 

Many thanks.


This thread was automatically locked due to age.
Parents
  • If your description of the problem is the same as Bruce's I'd bet it is some sort of memory leak causing the problem leading to lots of swapping.

    If you can leave a console running with "top" updating frequently that should give you a clue.

    Has anyone reported this issue to Astaro?

    If you need rock solid stability, I'd stay with the V6, it has been pretty stable for us.
  • im rebooting the system every 2 days at night. i think that asl 7.002 is not ready for production environment.
  • I'll have to see if I can get a monitor to hook up to it... problem is, is that the problem is somewhat random, and I'll have a hard time "catching it in the act"... I too think it may be a memory leak, as it does seem the one time I happened to be in webadmin right before it started, swap usage spiked to the max...and it returned to normal after about 30 minutes of intense HD activity... did note that the physical ram usage, after this "grind" was complete, was way down (below the normal line)...
  • Sure sounds like a program went out of control and then the Linux kernel OutOfMemory handler killed it. Looking at the system logs might let you know what happened.
  • Which logs?  The kernel logs (or any of the other ones accessible via webadmin) show nothing out of the ordinary happening in the time frame this occurs.
  • Thanks for all the feed back, unfortunately I started with 7.001 just recently, I don't believe they sell V6.  I haven’t noticed the HD light being stuck on, but the ASL is about 25 miles away in a datacenter. I am now cycling the power remotely. I don’t see anything in the Kernel Logs to lead me in any direction. 

    I sent my issue to Astaro Support yesterday and have yet to hear any response back from their team. I have bugged my local distributor, whom I purchased the software from and even had help setup the solution.  But it sounds like they are not experienced enough with V7, they just say how V6 is so wonderful! I think they are in for a rude awaking with accounting/reporting being removed and V7’s lack of stability so far.

    I am on the verge of wishing I just kept with Sonicwall. I know ASL die-hards hate them, but at least they run for years without dieing and support most of the options that I was wanting. The only draw back was going to be the cost of the Pro level Sonicwall that I needed for throughput and connections.
  • V7 will be wonderful, once they get the bugs worked out... is there a way you can have someone at the datacenter look at the HD light when it flips out?  It would be useful information for the Astaro support folks to have.. you can point them at this thread too, if you'd like.  You can load V6 (the ISOs are on their FTP site) and use a V7 License on it, if Astaro can't solve your problem quickly enough.  You would have to generate a new configuration manually, of course.
Reply
  • V7 will be wonderful, once they get the bugs worked out... is there a way you can have someone at the datacenter look at the HD light when it flips out?  It would be useful information for the Astaro support folks to have.. you can point them at this thread too, if you'd like.  You can load V6 (the ISOs are on their FTP site) and use a V7 License on it, if Astaro can't solve your problem quickly enough.  You would have to generate a new configuration manually, of course.
Children
No Data