Guest User!

You are not Sophos Staff.

This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

persistent DNS failures

We have been experiencing persistent DNS problems with one of our UTM 120 boxes for several months.

Web browsers are configured to use the UTM as proxy and frequently get time outs or host unreachable errors reported by UTM. The UTM DNS logs report batches of "host unreachable" errors. 

The errors appear to come in bunches. It will go 15 or 30 minutes with none, then there will be a batch of several hundred all in the span of a minute or two. Most seem to relate to CDN services such as akamai, edgecastcdn, facebook, amazonaws, edgesuite, google, etc.

We have tried various DNS forwarders including our ISP (Time Warner), Google and OpenDNS servers, all with similar results.

I thought it might be a problem with connectivity from our ISP, but I have been monitoring with a running ping and there is no apparent dropout associated with the DNS failures.

If we bypass the proxy and use our internal server for DNS, there are no problems.

Last week we gave up and replaced the UTM appliance but there was no change in the behavior. We have UTM 120's at 6 other locations, and none of the other have this problem.

Any ideas to help troubleshoot this would be most appreciated.

Thanks,
Alan


This thread was automatically locked due to age.
  • Also if I do a manual lookups from webadmin or nslookup from the command prompt for the failures in the log, many succeed.
  • Thanks for the idea. I didn't know about availability groups. I created one that includes one of my ISP's forwarders, one Google and one OpenDNS, and set that group as the only DNS forwarder. Unfortunately the "host unreachable" errors persist.

    I just noticed while running pings from the new UTM to both internal and external hosts I see occasional 2 to 10 second bouts of "sendmsg: Operation not permitted". 

    It gets more confusing because a concurrent ping across a VPN that terminates on this UTM is not interrupted when that happens, nor do the DNS errors occur at the same time.  Not sure what the heck is going on here...
  • Hi, 
    Try running a long-term traceroute app such as MTR/WinMTR and see if you can tell where the problem is starting.

    Barry
  • I ran mtr between a server in our main office and a host in the remote office (172.16.11.3) with the UTM120.

    I'm not sure how to interpret the results. SSL VPN uses 10.242.2.0/24 in the main office. The dropouts first appear on 10.242.2.6, which presumably is the port on the UTM at the main office, but that doesn't make sense as that hop is showing relatively long times.

     1. astaro1.                                ........................................
     2. 10.242.2.6                             2a2232222?222>33a2322a2a2332a3>2a332?a?
     3. 172.16.11.3                            23aa222222223c232322aa333???32ca23ac???
    Scale:  .:12 ms  1:30 ms  2:49 ms  3:92 ms  a:203 ms  b:307 ms  c:492 ms

    Dropouts on the VPN don't seem to especially correspond to "host unresolvable" errors.
  • Hi, you can also try mtr to the public IP of the remote UTM, that should help determine where on the internet the problem may be.

    I prefer the 'standard' output of MTR, which looks like 
    MTR

    Barry