Guest User!

You are not Sophos Staff.

This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

UTM320 with 9.307-6 - Basically unusable after update

Hello, I've been trying Sophos support, no luck for the last two days...

Our UTM320 is reaching 100% CPU and RAM usage periodically.

Top reports that the culprit is the  websec-reporter it uses all available memory until it starts to coredump all over the place.

Once this process starts core dumping, the http.log file also fills up with

2015:02:05-12:00:09 QMSGW httpproxy[5510]: id="0003" severity="info" sys="SecureWeb" sub="http" request="0xdf4c000" function="send_request_body_send" file="request.c" line="632" message="recv: Input/output error"

2015:02:05-12:00:09 QMSGW httpproxy[5510]: id="0003" severity="info" sys="SecureWeb" sub="http" request="0xde2db000" function="send_request_body_send" file="request.c" line="632" message="recv: Input/output error"

I can restart the proxy service by:

 /var/mdw/scripts/httpproxy restart    --for HTTP

And this will sometimes allow the system to limp along at 80-90 Memory usage (because of websec-reporter using it all), eventually websec ends, and all is good for about a half an hour or so then it restarts again

Any suggestions? We are a public school, the kids are very sad.....


This thread was automatically locked due to age.
  • Hi, Kmaracle, and welcome to the User BB!

    What reporting requirements do you have that would be violated if you deleted the existing reporting data base?  Since that's a possibility, you might want to start getting the reports you will need.

    Where's your reseller on this?  Unless you're a small school, a 320 may need serious tweeking to be able to handle the volume of users.

    just out of curiosity, what result do you get at the command line with:

    cc get settings extra_swap



    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • It replies "2"
    This is a small school, we have ~ 80 clients on per day mostly wireless.
    Reporting requirements : I usually take a look at the summary report, if there is no "bad site" activity all is good, if there are suspicious activities I notify the teacher.
    It's been working great until the last few updates, one messed up the reporting, it isn't as informative as before, this last update messed up our access.

    Shortly after I posted this, tech support said that it was a bug and they are working on it.....
  • The 320 should not be struggling like that with the load you have.  Also, "2" is the correct setting for a 320.

    one messed up the reporting [...]

    Shortly after I posted this, tech support said that it was a bug and they are working on it..... 

    While I don't discount a bug, the fact that reporting was already messed up confirms my first guess.  If you don't mind risking the loss of existing reporting data, you can rebuild the PostgreSQL databases with

    /etc/init.d/postgresql92 rebuild


    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • You could also try lowering the reporting retention settings.

    Barry
  • Search for pattern "File exists" in Your proxy http.log, my UTM disk is 100% overloaded for 5-10 min. I don't know exactly, but proxy is trying unsuccessfully recreating the cache. During these 5-10min postgres are waiting for disk I/O to write statistics, but very slow, it causes high CPU, IMHO.
     
    ID34197 9.305 httpcache cannot be created - mkdir /var/httpcache/0 failed: File exists
    ------------------------------------------------------------------------
    Description:
    Workaround:
    Fixed in:     9.308
  • Well, the reporting did work, it just didn't seem to give me as much information as it did before, under the user search reports, I used to get results like:

    Test Search 250 requests

    Now I get:

    T            1 request
    Te           1 request
    Tes          1 request
    Test          etc.....
    Test S

    grep'd the log, no instances of "File exists"
    The daily log file zoomed up to 89M zipped, when normally it's 20M or so
    Most of the log consists of:

     2015:02:05-12:00:09 QMSGW httpproxy[5510]: id="0003" severity="info" sys="SecureWeb" sub="http" request="0xde2db000" function="send_request_body_send" file="request.c" line="632" message="recv: Input/output error"

    I used grep to exclude these lines, yesterdays unzip log file was 15G, the excluded one is 150M

    Does the reporting system look at zipped log files? Is it safe to delete the http-2015-02-05.log.gz file(s)?

    So my guess is that something caused I/O errors, the log files grew to a crazy size, and the program that compiles the summaries used up all available ram trying to digest the logs.

    So far it seems fine today, but on Feb 3,4,5 it was basically down. I installed the update on Feb 2
  • could be a problem with the backend PostgresDB.
    We had to clear one of our down DB to fix it..

    from the command line

    /etc/init.d/postgresql92 rebuild

    which of course nukes any historical data you have..
  • Ok thanks, it's still working fine, I'll keep the database reset as a last resort if it reoccurs.

    I just wanted to add, that I've been happy with the Sophos box so far, it does everything the school needs for a price that was 1/4 of what the local computer places quoted us for a wireless/webfiltering solution. We paid for premium support, I'm not all that impressed with that, but luckily we've had very few problems with the box.

    I've read the manual(s), but what is missing is the tech manuals for the box, like clearing the db etc...is there one? (a manual from the tech point of view, not enduser?). Troubleshooting for Apple devices have caused me the most headaches.

    I am not unfamiliar with Linux, though my experience is mostly playing with LAMP server setup.
  • It just went max ram again....so the only repercussion of running  

    /etc/init.d/postgresql92 rebuild

    is that I'll lose my history? I can do this at anytime? I don't have to shut down any other services first?

    Thanks,
  • K, I don't think your original problem was in the UTM - rather that it was some broken webserver that many people access.  Maybe that's happening again.  Can you identify the source Input/output error in the Web Filtering log file?  What do you see from the command line with top?  

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA