This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

UTM 320 SW 9.101-12 Hard Lockup

Hi,

We currently run an older ASG320 and decided to upgrade to the newer UTM 320 hardware devices.

We're currently running 8.309 on our older device (never upgraded to 9) and everything has been running fine. 

We took a backup of that unit and restored it onto our new unit and when we put the new one into production, it will lockup completely after ~ 12-24 hours of use.

Sophos has RMA's one unit already to no avail.  We have the exact same symptoms.   

I've given addess to support (1st and 2nd level) and they've connected to our box and have seen nothing out of the ordinary.   The box, without load and just idling, does not crash.

This is what is on the console connection screen when the unit does crash:

[36131.354777] Disabling IRQ #56

[36146.530866] Disabling IRQ #53
[36387.711011] Disabling IRQ #59


I've been going back and forth with support but am at my wits end with this.   I'm considering forgoing the backup/restore and re-configuring everything from scratch to see if that will do anything (if something from the backup is causing the issue) but it's a lot of work to just test a hunch.

Anyone else ever encounter something like this?


This thread was automatically locked due to age.
  • I'm not seeing this on my sofware/vm installs.
  • We're not seeing any of this on the 110 in our field office, only on this particular revision of the 320.  Highly annoying though.
  • When I hear problems like this, I think about electrical supply issues. Maybe reversed polarity or a floating ground. Have you had all of your outlets checked in your computer room?

    Cheers - Bob

    Sorry for any short responses.  Posted from my iPhone.
  • I have two UTM 220's connected to two different power sources. It happens on both but for me it's only when QoS for RED's is turned on, otherwise they work fine. I had the same IRQ error's that he is seeing when I was using aggregated links but after I removed the aggregated links the IRQ error's disappeared but the locking still exists. Support has been pretty bad since I started using their products so it's just a bad situation all around.
  • bryans do you have a reseller working with you on this?
  • No, the reseller we bought through was not any help. I'm going to install a kernel package they sent me to see if we could catch something since the usual debugging mode logged nothing.
  • Did the support check for HDD Errors?
    We had similar issues due to HDD errors, the lookups happened too, when the defective device was slave.
    Rebooting the slave in that situation could temporary solve the problem for us.

    We had to rma booth devices now the problem is solved
  • So just a quick update on our situation.

    We kept working with support and decided late last year to try and go the Software-based UTM in VMware instead as support was getting nowhere with the 320.  

    We did the necessary changes and put the software version into production and the exact same problem occurred again.   The VM would lock up completely, stop processing traffic and would need to be hard reset.   

    VMware was reporting that the CPU was pegged at 100% usage and the network usage flatlines.

    We're at a complete loss at this point.   Support is asking to get a virtual serial connection going to the VM to capture the kernel information as when this happens, logging stops completely on the device.

    Our business rep is asking is to wait until 9.2 comes out and test that to see if it will solve the issue.

    At this point, we're seriously considering going somewhere else for our security solution.   It's been close to a year this has been going on and about 10 months too long.

    A real shame too because the 320 we had previously running 8.309 had been great and we were completely happy with it.
  • For me it was related to Link Aggregation. I just stopped using the feature because it was pretty useless and my IRQ problems went away.

    Bryan
  • So just a quick update on our situation.

    We kept working with support and decided late last year to try and go the Software-based UTM in VMware instead as support was getting nowhere with the 320.

    We did the necessary changes and put the software version into production and the exact same problem occurred again.   The VM would lock up completely, stop processing traffic and would need to be hard reset.

    VMware was reporting that the CPU was pegged at 100% usage and the network usage flatlines.

    We're at a complete loss at this point.   Support is asking to get a virtual serial connection going to the VM to capture the kernel information as when this happens, logging stops completely on the device.

    Our business rep is asking is to wait until 9.2 comes out and test that to see if it will solve the issue.

    At this point, we're seriously considering going somewhere else for our security solution.   It's been close to a year this has been going on and about 10 months too long.

    A real shame too because the 320 we had previously running 8.309 had been great and we were completely happy with it.


    When you went from the 320 to vmware did you use a config backup from the 320?  If so reinstall and do not use your config but rebuild manually.  When I had this isdue this is what solved it for me.  This sounds like a config issue to me..especially is this config can from your version 8 install