This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

System grinds to a halt every few days, how do I trouble shoot?

My Astaro install 7.002 is proving to be very unstable in a production environment where we need strong stability. I need some advice of what logs to review to detect where the issue truly is. I am open to it being a hardware issue but wondering how I prove what the true case may be. 

-I have had IPS disabled for about a week, because it is way to flaky.
-New hardware, installs all went smoothly.
-I also don’t have any of the proxy services running as I don’t have internal users.
-I am hosting email, database and web services.

Today’s crash: Around 4:00 PM today the performance of the throughput dropped and moved to a crawl, simultaneously my access to the web admin stopped. But I was still getting limited packets through, until about 10 minutes later the whole system froze.  Luckily, I can remotely power cycle my hardware and after the cycle my system is back up and running smoothly. But it is missing logs from around 8:00AM today until the final episode of death. 

The last entry of the self monitoring log is everything is running fine: (2007:03:13-08:43:55 (none) daemon-watcher[3262]: Watching selfmonng.plx - running fine) then no entries until after my reboot.

Has anyone else been experiencing this type of issue? This also happened to me about 48 hours prior to.  Do I need to start creating issues with Astaro support? What can I look at and take note of to be more helpful in figuring this out? 

Many thanks.


This thread was automatically locked due to age.
Parents
  • If your description of the problem is the same as Bruce's I'd bet it is some sort of memory leak causing the problem leading to lots of swapping.

    If you can leave a console running with "top" updating frequently that should give you a clue.

    Has anyone reported this issue to Astaro?

    If you need rock solid stability, I'd stay with the V6, it has been pretty stable for us.
  • im rebooting the system every 2 days at night. i think that asl 7.002 is not ready for production environment.
  • Had the same happen to me twice before I caught was going on...

    The responsible for the crash is the http proxy cache,  for some reason it keeps unneeded files on memory that are later passed to swap partition, this in time causes the sistem swap partition to fill up and after that the RAM fill's up too, then the system crashes....  what I did to work around this issue was to disable http proxy caching and cleaning the cache...  This resulted in lowering the swap space usage form 99% of a 1GB swap partition to 30%

    regards
  • Sounds like either a memory leak or the proxy cache is misconfigured.
  • HT is not multithreading..it's faking a second cpu to keep the monstrous instruction pipeline of the p-4 full.  HT is actually starting to show cracks.  SQL under heavy loads with HT on has been showing corruption simply because HT isn't true multi threading and it steps on itself(HT does) causing data corruption.
  • I have the same problem, but my system crashes every hour! 

    As far as I have seen the system is running out of memory. I can see in the Reporting / Hardware of the webadmin that swap usage reaches 100%. 

    The system starts 2-4 new processes every minute: 

    root      2662  0.0  1.1  37804  5744 ?        Ss   16:29   0:02 confd [master]
    root      2710  0.0  0.9  37704  5128 ?        S    16:29   0:00  \_ confd [prpc]
    root      2719  0.0  1.1  38652  6048 ?        S    16:29   0:01      \_ prpc [system]
    root      2795  0.0  0.9  38628  4832 ?        S    16:29   0:00      \_ prpc [system]
    root      3034  0.4  0.9  38764  4800 ?        S    16:29   0:13      \_ prpc [system]
    root      3990  0.0  1.1  38632  5972 ?        S    16:30   0:00      \_ prpc [system]
    root      4644  0.0  1.1  38636  6012 ?        S    16:30   0:00      \_ prpc [system]

    and:

     5826  0.0  0.4   8112  2376 ?        Ss   16:33   0:00 /usr/local/bin/emailpki-sync.plx
    root      5972  0.0  0.4   8112  2372 ?        Ss   16:34   0:00 /usr/local/bin/emailpki-sync.plx
    root      6016  0.0  0.4   8112  2380 ?        Ss   16:34   0:00 /usr/local/bin/emailpki-sync.plx
    root      6077  0.0  0.4   8108  2384 ?        Ss   16:35   0:00 /usr/local/bin/emailpki-sync.plx

    Does anyone know what these processes are used for? How to avoid them?

    Ernst



    It shouldn't be the http proxy because it is disabled.
  • I have the same problem, but my system crashes every hour! 

    As far as I have seen the system is running out of memory. I can see in the Reporting / Hardware of the webadmin that swap usage reaches 100%. 

    The system starts 2-4 new processes every minute: 

    root      2662  0.0  1.1  37804  5744 ?        Ss   16:29   0:02 confd [master]
    root      2710  0.0  0.9  37704  5128 ?        S    16:29   0:00  \_ confd [prpc]
    root      2719  0.0  1.1  38652  6048 ?        S    16:29   0:01      \_ prpc [system]
    root      2795  0.0  0.9  38628  4832 ?        S    16:29   0:00      \_ prpc [system]
    root      3034  0.4  0.9  38764  4800 ?        S    16:29   0:13      \_ prpc [system]
    root      3990  0.0  1.1  38632  5972 ?        S    16:30   0:00      \_ prpc [system]
    root      4644  0.0  1.1  38636  6012 ?        S    16:30   0:00      \_ prpc [system]

    and:

     5826  0.0  0.4   8112  2376 ?        Ss   16:33   0:00 /usr/local/bin/emailpki-sync.plx
    root      5972  0.0  0.4   8112  2372 ?        Ss   16:34   0:00 /usr/local/bin/emailpki-sync.plx
    root      6016  0.0  0.4   8112  2380 ?        Ss   16:34   0:00 /usr/local/bin/emailpki-sync.plx
    root      6077  0.0  0.4   8108  2384 ?        Ss   16:35   0:00 /usr/local/bin/emailpki-sync.plx

    Does anyone know what these processes are used for? How to avoid them?

    Ernst



    It shouldn't be the http proxy because it is disabled.


    how much memory do you ahve in the system?  What cpu, mobo, nic as well as hdd.
  • Hi,

    the system has 512 MB ram, a P-III 1000 cpu, a 40GB disk with a 1GB swap and 2 3COM 905C-TX nics.

    Some further investigation showed, that the selfmonitoring daemon stated 1 to 2 times a minute, that the dns resolver was not running properly and started a new instance of it.

    I found a solution: Just reinstall the box [:D] . 

    But it was a pitty, that the 7.002 configuration backup could not be loaded on a fresh installed 7.001 system. I had to do the basic configuration until the up2date brought me the 7.002. Since my configuration is simple I just reentered the rules by hand. 

    Till now, the system runs. 

    Ernst
  • I've heard through the grapevine that some Kernel updates may be in the forthcoming up2date package (in a week or so)... perhaps they will address the memory allocation issue---it seems to be happening in all sorts of different processes on different systems... we'll see.
  • I doubt that a kernel update would affect any memory issues unless there was a memory leak in the kernel itself. Hopefully the other updates they release along with it address the memory leaks.

    eha, do you have a full process list from when the system became unresponsive?
  • When mine does that most of the time the logs go missing, so there is nothing to look at or review.

    Once I have found two apps misbehaving, I covered that in another thread.

    Ian M
  • I've heard through the grapevine that some Kernel updates may be in the forthcoming up2date package (in a week or so)... perhaps they will address the memory allocation issue---it seems to be happening in all sorts of different processes on different systems... we'll see.


    We have an issue where the box became unresponsive on a production 7.002 220 appliance. It was due to a problem in communication with mysql and the self monitor. That was fixed (from what I can tell) by reloading the box. Not that big a deal. 

    Unfortunately, we now have an issue where SSL VPN will stop responding. The rest of the box appears to run fine (it's the main box at the edge), but we have to reboot it to get it back to normal.
Reply
  • I've heard through the grapevine that some Kernel updates may be in the forthcoming up2date package (in a week or so)... perhaps they will address the memory allocation issue---it seems to be happening in all sorts of different processes on different systems... we'll see.


    We have an issue where the box became unresponsive on a production 7.002 220 appliance. It was due to a problem in communication with mysql and the self monitor. That was fixed (from what I can tell) by reloading the box. Not that big a deal. 

    Unfortunately, we now have an issue where SSL VPN will stop responding. The rest of the box appears to run fine (it's the main box at the edge), but we have to reboot it to get it back to normal.
Children
No Data