This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Memory Leak in UTM 9.306-6

Hi all,

I recently had a situation where all L2L VPN tunnels on the UTM went down and stayed offline despite the device appearing responsive.  I corrected the issue by simply toggling each tunnel on/off.  On examination of the logs, I found that the system had run out of memory and many services were killed and restarted.  At this time, many processes were restarted but for purposes of this post the important ones were dhclient and pluto.  It looks like the VPN subsystem came back online before dhclient was able to get an IP for the interface.  As a result the vpn subsystem failed to come online with a line like the following recorded for each tunnel:

2015:04:10-04:57:15 Prod-RAVPN01 pluto[17384]: "S_REF_removed_0": we have no ipsecN interface for either end of this connection

2 seconds after this message dhclient got its IP, but no retry occurred.  Manual fix was to toggle each tunnel on/off and all was happy.

So two issues:
- It would be great if that race condition could be solved.  My understanding is that this is a known issue.

- More important, it seems to me that a memory leak is what caused the crash.  The attachment seems like strong proof of a leak.  This device provides RA and L2L VPN services and basic NAT/firewall type functionality.  We don't use Web, Email, Endpoint, Wireless, or Web Protection features at all.

Not sure if it matters but this instance is an AWS virtual appliance version of the UTM.  I looked at the up2date patches pending and none of the bugfixes seem related to a memory leak.  I can probably find out what process is leaking once some time goes by, but not sure what if anything I can do to fix it aside from restarting whatever process is leaking.


This thread was automatically locked due to age.
Parents
  • The system has 3.75G of memory.  I took a look this morning and it seems that the memory usage over the last 24 hours since my crash is slowly ramping up at about the same rate that it had prior to the crash.  I'm going to observe the system over the next couple days to see if I can figure out what process is consuming the extra memory.  At a minimum I might be able to work around things by disabling the process if its for some functionality I don't use.

    I'm curious does anyone else see this type of pattern in their memory usage graph in either version 9.306-6 or any other version?  Although the 3 outstanding patches don't mention any memory related fixes, I'm curious to see if anyone else sees similar behavior in any other versions.  I am intending to apply the 3 patches during an upcoming maintenance window, so I'll comment back on this thread if those fix it.

    Does Sophos have any mechanism for the community to report possible bugs?  I have no support contract with them, and I'm not looking for free support.  But if its a bug I figure they probably want to know about it.
Reply
  • The system has 3.75G of memory.  I took a look this morning and it seems that the memory usage over the last 24 hours since my crash is slowly ramping up at about the same rate that it had prior to the crash.  I'm going to observe the system over the next couple days to see if I can figure out what process is consuming the extra memory.  At a minimum I might be able to work around things by disabling the process if its for some functionality I don't use.

    I'm curious does anyone else see this type of pattern in their memory usage graph in either version 9.306-6 or any other version?  Although the 3 outstanding patches don't mention any memory related fixes, I'm curious to see if anyone else sees similar behavior in any other versions.  I am intending to apply the 3 patches during an upcoming maintenance window, so I'll comment back on this thread if those fix it.

    Does Sophos have any mechanism for the community to report possible bugs?  I have no support contract with them, and I'm not looking for free support.  But if its a bug I figure they probably want to know about it.
Children
No Data