This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Temporary 100% CPU Load - How to Identify Root Cause?

Hello Folks,

This is the situation:
From time to time (on a day/in a week) our Astaro ASG320 v.8.202 runs on 100% CPU. All inhouse Internet traffic is very slow then and users are complaining.

RAM is usually ~60% used, SWAP ~30% and Log and Data Disk have enough space.

Using the console and the "top" command it shows me among other information:


  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
19658 postgres  20   0 52616  35m  32m S 52.8  3.5   0:01.95 postgres
 4323 httpprox  20   0 1268m 288m 5048 S  38.6 28.7 432:21.06 httpproxy


These values differ. Sometimes the postgres and the httpproxy have a CPU load of 30-70% even. But everytime its these both services using most of the Astaro's device performance.

I GUESS someone causes some overload within the network. 
I cannot figure out where from or who is doing so.
The users use the webfilter proxy to browse through the Internet.
Having the webfilter live log running there is nothing suspicious during those "slow" times.

We are using an Online Hard Disk service by Strato by the way. Users upload and download data mostly using a https (WebDAV) connection therefore. 
The webfilter does NOT scan HTTPS traffic.

How can I identify and SOLVE the root cause of this 100% CPU load problem?

Thank you in advance!!
Regards,
Uwe

* * *

PS: Today this situation is happening very often! :-(

PPS: I cannot say that for sure but I think the following (and similar) webfilter live log lines occur when the CPU is on 100%:

2012:01:11-15:10:59 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="sc_handle_cmd" file="scr_scanner.c" line="510" message="cffs11.astaro.com: write: Connection refused"


2012:01:11-15:15:03 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="confd_config_reload_func" file="confd-client.c" line="757" message="reloading config done, new version 25231"
2012:01:11-15:15:03 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="confd_config_reload_func" file="confd-client.c" line="722" message="reloading config"

2012:01:11-15:15:14 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="sc_check_servers" file="scr_scanner.c" line="721" message="server 'cffs13.astaro.com' access time: 296ms"

012:01:11-15:45:55 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="sc_check_servers" file="scr_scanner.c" line="721" message="server 'cffs10.astaro.com' access time: 706ms"
2012:01:11-15:45:55 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="sc_check_servers" file="scr_scanner.c" line="721" message="server 'cffs12.astaro.com' access time: 99ms"
2012:01:11-15:45:55 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="sc_handle_cmd" file="scr_scanner.c" line="510" message="cffs01.astaro.com: write: Connection refused"
2012:01:11-15:45:56 disgwac httpproxy[4323]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="sc_check_servers" file="scr_scanner.c" line="721" message="server 'cffs06.astaro.com' access time: 419ms"


This thread was automatically locked due to age.
Parents
  • No strange entries in the log.

    The CPU load issue happens around every 10 minutes today.
    The postgress circles around 80% even sometimes. Also the index.plx process takes up to 15% sometimes.

    Another example:


    Tasks: 134 total,   2 running, 130 sleeping,   0 stopped,   2 zombie
    Cpu(s): 77.7%us, 11.3%sy,  0.0%ni,  0.0%id,  0.0%wa,  1.3%hi,  9.7%si,  0.0%st
    Mem:   1027696k total,   997548k used,    30148k free,     4568k buffers
    Swap:  1052248k total,   343228k used,   709020k free,   216108k cached

      PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    26210 postgres  20   0  129m  74m  12m R 43.7 50.5   0:04.06 postgres
    24500 wwwrun    20   0 63480  53m 2360 S 16.9  5.4   0:23.81 index.plx
     4323 httpprox  20   0 1268m 200m 4452 S 13.6 20.0 435:17.48 httpproxy
Reply
  • No strange entries in the log.

    The CPU load issue happens around every 10 minutes today.
    The postgress circles around 80% even sometimes. Also the index.plx process takes up to 15% sometimes.

    Another example:


    Tasks: 134 total,   2 running, 130 sleeping,   0 stopped,   2 zombie
    Cpu(s): 77.7%us, 11.3%sy,  0.0%ni,  0.0%id,  0.0%wa,  1.3%hi,  9.7%si,  0.0%st
    Mem:   1027696k total,   997548k used,    30148k free,     4568k buffers
    Swap:  1052248k total,   343228k used,   709020k free,   216108k cached

      PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    26210 postgres  20   0  129m  74m  12m R 43.7 50.5   0:04.06 postgres
    24500 wwwrun    20   0 63480  53m 2360 S 16.9  5.4   0:23.81 index.plx
     4323 httpprox  20   0 1268m 200m 4452 S 13.6 20.0 435:17.48 httpproxy
Children
No Data