This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

"System Load too High - please check"

How can the system load be too high when CPU is at 10%, memory is half used, and there is no swapping going on?

It does this about once every few days with little reason... (not to say that it behaves flawless the rest of the time) [:)]

Should I be worried about these notifications?  


This thread was automatically locked due to age.
Parents
  • if the 10% you're talking about is something like: 10.26 in the line system load, it's worth having a look, caus this would be 1000% .. but not 10% !

    (1.00 equals 100%)

    /marcel 
  • I believe that it was quite high... I was wondering how can notifications like that go out and not impact the Hardware or Network Reports in any way?   
  • I agree with Ryan becuase my server  show cpu 100%.  
  • 4.001 is out and addresses this issue. 
  • I installed 4.001 the day it came out, and now after a week or so I think that its worse than before. Even a full reboot doesn't give me relief.

    I am constantly bombarded with "Allocating too much swap" and "too much memory for a single process" (/bin/exim -bd -q20m) alerts and who can forget my favorite, "System load too high"...  {sigh}

    I've also had some really strange PPTP VPN issues since the 4.001 up2date, it seems like when I am VPN'd in and accessing the web (through the PPTP_Pool MASQ to External interface), certain sites will not come up, if I am on the network locally they come up great (google is one of them). Its not a DNS problem, it almost seems like Astaro doesn't know what session the data came from and cannot return any data (wrong forum, I know).

    Has anybody else had similar experiences with 4.001?   
  • Hi Ryan,
     
    please make a 'touch /etc/no-superdaemon/debug' and post the next full notifications message here.
      
  • ok, done. What debug information does that produce?
    Anyways here are some of the Notifications:
    (I have hundreds of them)

    ---------------------------------

    [WAR 102] Too much memory for a single process - please check(3 times)

    Too much memory for a single process:
    238072 kb for /bin/exim -bd -q20m
    squid    12265 24.1 40.1 238072 155244 ?     R    15:21   1:00 /bin/exim -bd -q20m


    Last WebAdmin login: admin at Tue from 10.10.9.64 
    System Uptime      : 0 days 5 hours 59 minutes
    System Load        : 3.33
    System Version     : Astaro Security Linux  4.001
    License            : Enterprise Version   

    ----------------------------
    [WAR 102] Too much memory for a single process - please check(67 times)

    Too much memory for a single process:
    486256 kb for /bin/exim -bd -q20m
    squid    23667 71.8 92.7 486256 359020 ?     R    22:18   3:30 /bin/exim -bd -q20m


    Last WebAdmin login: admin at Tue from 24.195.224.37 
    System Uptime      : 0 days 13 hours 7 minutes
    System Load        : 1.11
    System Version     : Astaro Security Linux  4.001
    License            : Enterprise Version   

    --------------------------------
    [WAR 103] Allocating to much swap - please check(3 times)


    Current: 119876 kB
    Last WebAdmin login: admin at Tue from 10.10.9.64 
    System Uptime      : 0 days 5 hours 59 minutes
    System Load        : 3.50
    System Version     : Astaro Security Linux  4.001
    License            : Enterprise Version     

    ----------------------------
    I have seen system load go up to as high as 6.0, I just want to know what makes exim go nuts like that. (Now my MRTG graphs on the reporting pages ARE reflecting the system load, and its not pretty)

    Ryan
      
  • I turned off Anti-Virus scanning (on a whim) and there was no effect.

    However, I did notice in the /var/chroot-smtp/spool/scan directory I had the same message repeated hundreds of times (with about 700k in attachments), and it was using about 80% of my /var/chroot-smtp partition.
    So I guess that its just one more thing that I have to monitor and worry about...
    The exim problem has had the box pegged for about 4 days now, CPU usage is through the roof, and that '/bin/exim -bd -q20m ' process just eats up CPU, Memory and Swap until Astaro is forced to kill the process.

    If there is any more information that would be helpful, I would be happy to provide it.   
  • Was the attachment a .zip file ?

    Mike
      
  • No, it was .dbf files (no idea).
    I am going to re-install Astaro on different (READ: superior) hardware on Moday. I am also migrating my old configuration to the new box, hopefully the problem won't follow me (I'll be using 4.000 for as long as I can help it, even though I'm not sure it caused the problem)... 
    With 4.000 spamd caused the problem, with 4.001 exim does it (although MUCH worse), oh well.

    This what I'm talking about..

     http://www.isnotnull.org/images/hwreport.jpg 
        
  • Another Update:
    I disabled Anti-Virus services again after noticing many kavdaemon errors in my log (which possibly caused the /spool/scan problem above):

    temporarily rejected by exiscan(): temporary local problem (kavdaemon reported error (retcode8))

    I attempted to fix this using some info I found related to that error (https://community.sophos.com/products/unified-threat-management/astaroorg/f/68/t/58680)
    but it didn't work (hence the anti-virus disabled now).

    However, I am still having major Resource problems stemming from the "\_ /bin/exim -bd -q20m" process.
       
Reply Children
  • Ok, I believe that I have fixed it FOR NOW.

    Basically there were 2 email messages (both with attachments; not zip files) that were causing problems with exim as well as the virus scanner...
    Exim would replicate the message over and over again in the /spool/input directory until the disk ran out of space. I also observed a similar problem with the /spool/scan directory getting filled up as well. In either case resource utilization would go through the roof slowing the entire machine down and eventually stopping mail flow once the disk was full. I'm not sure why this was happening but when I added an expression that catches these 2 'very specific' emails they were put into /spool/Finput and they weren't seen again.

    If anyone from Astaro would like to see these emails, I would be more than happy to retrieve them from the frozen queue and send them over.
    I am still quite uneasy about the whole thing, but at least it is temp fixed.

    (I may have replied to myself too many times, but then again, thats why we have the 'search' feature!)

    Thanks-   
  • please send them to support@astaro.com and add a short comment about the problem

    thanx!
    /marcel