This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

UTM 120 CPU spikes

Hi, 

I have a number of UTM 120s deployed for different clients. Several of these clients are now complaining that they occasionally lose Internet connectivity for periods of 30 seconds to a minute. VoIP call quality also decreases during this time. 

I've verified that every time, I'm seeing CPU spikes to 80-100% on the UTMs. 
If I turn off Web Filtering, the problem goes away, but I don't like leaving that off. 

I've rebooted the UTMs, updated them, checked settings for anything I can limit, and nothing seems to be working. 

Do I have bad UTMs? Is there a recent firmware update that increased resource usage? Are they just overloaded?

I'd appreciate any help. I'm stuck. 
Thanks!


This thread was automatically locked due to age.
  • The new sg series are much more powerful and an sg115 might suffice.  I advise contacting me via pm or your reseller if you have one.
  • I too have been battling this issue for a few months now.  I've found I can effectively render any of the 120s my firm has deployed useless for a solid 30 minutes if I initiate a manual pattern update.

    We noticed this problem shortly after the 9.3 firmware update but it wasn't horrible at first.  It seemed to get a bit better after a few of the firmware updates but it still was an issue and it took some time to realize it was the pattern updates that were causing CPU spikes.  Scaling back the up2date interval helped for a little but in the last month any update just murders the CPU.  I bet if anyone else is running into this they'll find that the up2date counter will be reset when they're finally able to get back into the device. 

    For a while there it was only a couple of our deployed 120s that I saw maxing out the CPU and going offline for a period of time but in the last month as the downtime grew from 5-10 minutes to 30-40 the complaining from end users has grown and I've realized it wasn't just a few, it was all of them.  

    I guess all signs point to needing to upgrade the hardware or start turning services down or off completely?
  • I would go the new hardware route.  at least a 115 but you many need a 125..talk to your reseller if you do not have one pm me..[:)]
  • At the moment I have a NAMED bug crippling all of my units. We were already cutting it close on memory just running basic routing, wireless, and IDS. This current bug is causing DNS to eat the entire box and it creates site-wide outages. I am trying desperately to at least get an SG125 dropped shipped ASAP to me.
  • See https://community.sophos.com/kb/en-us/122706

    Rather than follow the original document they sent me, I did the following for all of the clients for whom I have Shell Access as root:

    cc set aptp status 0
    /var/mdw/scripts/named restart



    Just copy both lines and paste them in together.

    Cheers - Bob

    PS I confirmed today that you can re-enable ATP as follows (may have already made it into the link above):

    Wait for a slow time and do the following.  To know the right time to do this execute grep 'audld.plx' /etc/crontab and look for the a similar line that tells us that the UTM I ran this on looks for and installs pattern updates every 15 minutes beginning at 2 minutes past every hour.

    2,17,32,47 * * * * root /sbin/audld.plx --nosys --trigger



    In this case we would run the following and let the UTM acquire the pattern update on its own schedule.

    cc set aptp status 1



    If the time period is longer, then wait until 5-to-6 minutes before a scheduled update to run the previous command or run the following one 5+ minutes after the cc set command:

    /sbin/audld.plx --nosys --trigger



    Execute this command again if you receive the message:

    Another instance of this process is already running, exiting



    The result should be:

    no HA system or cluster node
    Starting Up2Date Package Downloader
    patch up2date possible
    Authenticating ...
    Authentication successful!
    Starting Up2Date Download
    Starting sync mode for 'aptp'
      Downloading Up2Date Package http: //184.72.238.199/asg/v9/aptp/u2d-aptp-9.106xx.tgz.gpg
        +++++++++++++++   100% - 4895841 bytes received


    Just to be certain, restart named again after rpm -qi u2d-aptp shows a pattern newer than 10612:

    /var/mdw/scripts/named restart


    WAIT 15 minutes to confirm with top that this problem is solved.
  • I have a 120(hardware) with basicguard which disables ATP and that mitigates the issue..interesting...[:)]
  • CPU spikes are definitely related with savi up2date procedures. During that time webadmin is not available and CPU is at 100% constantly.
    Here is my observation on a client's UTM120:

  • Vilic, I've been complaining about this for over a year.  In fact, I don't think it's SAVI because I've seen the same thing with Avira as the Single-Scan selection.  I think it's cssd - the daemon that rebuilds the underlying database after the new patterns are added/deleted.

    Cheers - Bob