This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

host not found errors

Recently one of my appliance boxes has started producing numerous "host not found" errors to web clients. This started a few weeks ago about the time it upgraded to 9.006-5. I have several appliances on the same software revision that do not have this problem.

I have tried changing DNS forwarders and tried deleting all of the forwarders. I tried a Google forwarder as well. I tried disabling virus scanning also. There is nothing in the IPS logs. The DNS log shows the errors.

I opened a support case last week, but I was hoping for some troubleshooting hints while I wait for Sophos to respond.

Thanks,
Alan


This thread was automatically locked due to age.
  • Alan, this qualifies for what I call Rule #1 (enhanced):

    Whenever something seems strange, always check the Intrusion Prevention,
    Application Control and Firewall logs.


    Any luck with that?

    Cheers - Bob
  • Bob,
    Thanks for the suggestion. I did check the IPS logs, which are empty. We are not running Application Control. Looking at the Firewall log, there are a few entries matching times for some of the hundreds of DNS "host unreachable" errors, but none matching any destination addresses. There are some strange blocks of traffic for users on the internal network trying to access a server on the same network, which doesn't make much sense (they should be reaching that server directly).

    It just looks like the DNS proxy is not being able to reach DNS servers on the internet. The errors are random. Sites don't resolve for a while will suddenly start working and vice-versa. Here is a very small excerpt from the DNS proxy log:

    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-1032.awsdns-01.org/A/IN': 199.19.57.1#53
    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-881.awsdns-46.net/A/IN': 192.55.83.30#53
    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-881.awsdns-46.net/A/IN': 192.43.172.30#53
    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-881.awsdns-46.net/A/IN': 192.5.6.30#53
    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-881.awsdns-46.net/A/IN': 192.41.162.30#53
    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-881.awsdns-46.net/A/IN': 192.35.51.30#53
    2013:04:26-07:11:28 astaro-1 named[4108]: host unreachable resolving 'ns-881.awsdns-46.net/A/IN': 192.48.79.30#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'a122.g.akamai.net/A/IN': 8.8.8.8#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 8.8.8.8#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 8.8.4.4#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 124.40.52.134#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 72.246.46.5#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 95.100.168.32#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 195.59.44.136#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'fbexternal-a.akamaihd.net/A/IN': 184.26.161.32#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'graph.facebook.com/A/IN': 8.8.8.8#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'graph.facebook.com/A/IN': 8.8.4.4#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'graph.facebook.com/A/IN': 69.171.255.12#53
    2013:04:26-07:11:29 astaro-1 named[4108]: host unreachable resolving 'graph.facebook.com/A/IN': 69.171.239.12#53

    2013:04:26-07:42:42 astaro-1 named[4108]: host unreachable resolving 'view.atdmt.com.nsatc.net/A/IN': 8.8.8.8#53
    2013:04:26-07:42:43 astaro-1 named[4108]: host unreachable resolving 'ac412bdea1b895bdfc6d5e627a1a66e93.profile.jax1.cloudfront.net/A/IN': 8.8.4.4#53
    2013:04:26-07:42:49 astaro-1 named[4108]: host unreachable resolving 'beacon-3.newrelic.com/A/IN': 8.8.8.8#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 8.8.4.4#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 8.8.8.8#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 96.7.251.129#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 193.108.91.38#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 124.40.52.132#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 66.171.230.25#53
    2013:04:26-07:43:49 astaro-1 named[4108]: host unreachable resolving 'supportaccess.sophos.com/A/IN': 193.108.91.114#53

    Also, I'm seeing a large number of failed attempts to resolve PTR records for an IP on our ISP's network:

    2013:04:26-07:32:08 astaro-1 named[4108]: unexpected RCODE (SERVFAIL) resolving '1.34.54.76.in-addr.arpa/PTR/IN': 65.24.0.171#53
    2013:04:26-07:32:09 astaro-1 named[4108]: unexpected RCODE (SERVFAIL) resolving '1.34.54.76.in-addr.arpa/PTR/IN': 24.30.201.3#53
    2013:04:26-07:32:09 astaro-1 named[4108]: unexpected RCODE (SERVFAIL) resolving '1.34.54.76.in-addr.arpa/PTR/IN': 24.30.199.7#53
    2013:04:26-07:32:09 astaro-1 named[4108]: unexpected RCODE (SERVFAIL) resolving '1.34.54.76.in-addr.arpa/PTR/IN': 24.30.200.3#53
    2013:04:26-07:32:09 astaro-1 named[4108]: unexpected RCODE (SERVFAIL) resolving '1.34.54.76.in-addr.arpa/PTR/IN': 76.85.228.83#53

    As well as some internal IP's:

    2013:04:26-08:02:10 astaro-1 named[4108]: host unreachable resolving '1.15.16.172.in-addr.arpa/PTR/IN': 8.8.8.8#53
    2013:04:26-08:02:10 astaro-1 named[4108]: host unreachable resolving '1.15.16.172.in-addr.arpa/PTR/IN': 8.8.4.4#53
    2013:04:26-08:02:10 astaro-1 named[4108]: host unreachable resolving '1.15.16.172.in-addr.arpa/PTR/IN': 192.175.48.42#53
    2013:04:26-08:02:10 astaro-1 named[4108]: client 127.0.0.1#44393: RFC 1918 response from Internet for 1.15.16.172.in-addr.arpa
  • I fixed the internal PTR issue by adding a forwarder to one of our internal DNS servers. Still getting lots of "host unreachable".
  • The Intrusion Prevention log also contains Anti-DoS Flooding activity - DNS traffic can be perceived as a UDP flood, depending on the configuration.

    How does your DHCP/DNS configuration compare to DNS Best Practice?

    Cheers - Bob
  • Thanks Bob. The IPS log has a few “IE Userdata corruption attempt” entries and a few portscan blocks, but that’s all for the past few weeks.

    Our configuration matches Best Practices 1-4, except we use Google DNS servers at present as forwarders. We had been using the ISP’s servers until recently. The change to Google DNS was after this problem began and didn't seem to have any effect.

    For #5, the internal clients’ assigned DNS servers include just the internal server’s DNS, not Astaro or OpenDNS. The theory being that the clients are configured with standard web proxy and will use Astaro DNS for that and the internal server DNS for everything else. 

    For #6, the internal server DNS forwarders are the ISP’s assigned servers and it can access root servers.

    What bothers me is that it was working fine for several years and this problem began suddenly with a firmware upgrade about 3 weeks ago. Also, it is one of 7 offices that we have with nearly identical set-ups and is the only one experiencing this problem.
  • Try running a dig loop on that appliance for 100.google.com to 200.google.com and see if any of the requests time out. (For more information, see Step 9 of my Resource Consumption Checklist KB article Resource Consumption Checklist)

    Are you experiencing any packet loss on your Internet connection? DNS typically uses UDP which will fail if the packet drops, as compared to TCP which would simply retransmit the packet, potentially hiding the problem from you. You could try asking your ISP to do a Line Check.

    Do you see any other messages in the Web Filter log, perhaps regarding broken pipes, or connection refused, or anything like that?

    Does the problem resolve itself if we reboot the box? I hate to use The Windows Way (tm), but it does occasionally work sometimes.
  • *update to add detail and clarify*
    I had a spate of host not found on a client site this morning.  First step was to turn off web proxy - which allowed browsing no problem on the packet filter - but without any security from web filter.   A temporary fix while investigating.

    Plenty of these kinds of logs - probably not due to the host disappearing being Microsoft

    2013:10:09-09:15:59 astaro httpproxy[15816]: id="0002" severity="info" sys="SecureWeb" sub="http" name="web request blocked" action="block" method="HEAD" srcip="10.0.2.12" dstip="" user="" statuscode="502" cached="0" profile="REF_fPYlksBtRp (Partners)" filteraction="REF_IzwQdYBOdx (Partner)" size="0" request="0x15b521b0" url="download.microsoft.com/.../muv4wuredir.cab

    Nothing in IDS, DNS, and Application control at the same time.  However, at the same time as the blocked message - just like SDENG in the following post - I too have same DNS errors:

    2013:10:09-09:15:57 astaro httpproxy[15816]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="dns_expire" file="dns.c" line="186" message="dns query b0c9 (download121.avast.com) timed out, retransmitting (retry 1)"
    2013:10:09-09:15:57 astaro httpproxy[15816]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="dns_expire" file="dns.c" line="186" message="dns query 2522 (download.microsoft.com) timed out, retransmitting (retry 1)"
    2013:10:09-09:15:57 astaro httpproxy[15816]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="dns_expire" file="dns.c" line="186" message="dns query 3eca (download404.avast.com) timed out, retransmitting (retry 1)"

    Thanks to BAlfson's suggestions above - I reviewed my DNS setup and found and fixed the problem.   I had six ISP based DNS servers in my forwarders.   One of them must have been misbehaving.   Astaro reacts badly to misbehaving DNS servers.  So I replaced them with an availability group of 4 more reliable DNS servers, 2 from OpenDNS and 2 from Google.

    This fixed the problem for me.   Odd thing is that there were no DNS logs complaining about anything.   I conclude that the DNS function in Astaro is weak and makes the web proxy vulnerable to DNS issues such as one DNS server being down for maintenance.    

    Recommend reviewing BAlfson's DNS best practice above, and would suggest also using the availability group trick I have seen elsewhere to minimise exposure to a DNS server that is offline.  

    BR Adrien.
  • Hello,


    I have exactly the same issue "random host not found errors in the web filter". I assume this is related to the Sophos UTM DNS resolver, because the following constellations occur at my side:

    1) UTM Web filter as explicit proxy
    UTM resolver: DNS PDC/BDC
      > UTM > ISP DNS
    => host not found errors

    2) Squid Proxy as explicit proxy
    Squid resolver:
       > DNS PDC/BDC > UTM > ISP DNS
    => host not found errors

    3) Squid Proxy as explicit proxy
    Squid resolver:
       > DNS PDC/BDC > ISP DNS
    => no errors!

    my log entries also show a dns.c error:

    2013:10:07-08:49:00 gw-rat01-1 httpproxy[5874]: id="0003" severity="info" sys="SecureWeb" sub="http" request="(nil)" function="dns_expire" file="dns.c" line="186" message="dns query 9b1d (OpenBSD Journal: A resource for the OpenBSD community) timed out, retransmitting (retry 1)"
    2013:10:07-08:49:04 gw-rat01-1 httpproxy[5874]: id="0002" severity="info" sys="SecureWeb" sub="http" name="web request blocked" action="block" method="GET" srcip="10.50.13.127" dstip="" user="" statuscode="502" cached="0" profile="REF_DefaultHTTPProfile (Default Proxy)" filteraction="REF_DefaultHTTPCFFAction (Default content filter action)" size="3281" request="0x194ebd80" url="http://www.undeadly.org/cgi?action=article&sid=20130319091144" exceptions="" error="Host not found" category="165" reputation="neutral" categoryname="Technical/Business Forums"


    IPS is disabled. I have an open support case with Sophos with this but no resolution yet.


    Kind regards, -sd
  • Adrien, thanks for your contribution of the Availability Group idea.  That makes the DNS Proxy more robust.  I have added this idea to the DNS Best Practices post.

    Cheers - Bob
  • Hello,


    just a quick note: using "adrienjb"s setup with availability groups didn't solve my problem.

    I'm testing with googling random stuff and opening ~50 tabs in the background one after another. Around 10% of the tabs show the "host not found error" after F5'ing after a few seconds the sites load without problems.

    Still weird.


    Kind regards, -sd