This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

connect: No buffer space available

Hi,

I just the following error on the firewall:
[ QUOTE ]
 loginuser@gate:/home/login > su -
Password:
gate:/root # ping 172.16.2.1
connect: No buffer space available 

[/ QUOTE ] 

This is from the kernel log and repeats several times until the point where the system was restarted:
[ QUOTE ]
2004:10:05-10:52:49 gate kernel: Neighbour table overflow.
2004:10:05-10:52:49 gate kernel: MASQUERADE: No route: Rusty's brain broke! 

[/ QUOTE ] 

Even though today is the first time I noticed these error messages, the problem is quite old. What usually happens is that after the fw has been up for one week (+/- a day or two), its connectivity rapidly degrades, i.e. the latency increases/throughput decreases up to the point that there's no outside connectivity at all any more. Finally I'm even unable to log in via WebAdmin/ssh. Only a reboot or restarting the MiddleWare seems to help.

Currently it's running on 5.023, but the problems have started quite some time and several versions ago. 

This is the current configuration:
Intel Celeron 1200MHz, 256MB RAM
NIC1: D-Link DFE-580 (D-Link System Inc DL10050 Sundance Ethernet is what /proc/pci says)
NIC2: RealTek RTL-8139

The box has 5 interfaces, 4 of them being on the D-Link card.
It's doing some NAT (Masquerading as well as SNAT and DNAT), packet filtering and some IPsec Roadwarrior connections (~1 per day).
Proxies: DNS, Socks, SMTP (SMTP only running since a few days). Nothing spectacular at all.

I think it's understandable that a firewall that needs a reboot once a week is not really what I'd expect from it. Can anybody help please?

Thanks,
Sascha


This thread was automatically locked due to age.
Parents
  • Maybe a config problem?
    Why comes there a message with masquerading when pinging to a private network?
  • I don't think this is directly related. As I said, the whole fw is loosing connectivity once this error pops up, so the message about masquerading is probably coming from another client that was trying to reach the internet during this time. Five minutes later the network (i.e. all interfaces) of the whole box was dead.

    I did some research on Google that indicates that the OS is running out of sockets. Now that the machine is running for about 4 hours again, according to netstat -a, there is a huge amount of connections to localhost:16498 (about 100, plus about 30 more to different other ports, but all to localhost - most of them being in the state TIME_WAIT). 

    A wild guess is that there is a socket-leak somewhere, i.e. sockets don't get closed and eat up resources over the time.
  • I believe the 100 connections are ASL's internal processes for licensing, configuration, ...
    I currently have 257 according to netstat -a|wc

    You can run top, hit shift-M, and see what is using the most memory.

    You might also consider trying a different brand of nic, as it's slightly possible there is a leak in the nic driver.

    Barry
Reply
  • I believe the 100 connections are ASL's internal processes for licensing, configuration, ...
    I currently have 257 according to netstat -a|wc

    You can run top, hit shift-M, and see what is using the most memory.

    You might also consider trying a different brand of nic, as it's slightly possible there is a leak in the nic driver.

    Barry
Children
  • [ QUOTE ]
    I believe the 100 connections are ASL's internal processes for licensing, configuration, ...
    I currently have 257 according to netstat -a|wc

    You can run top, hit shift-M, and see what is using the most memory.

    You might also consider trying a different brand of nic, as it's slightly possible there is a leak in the nic driver.

    Barry 

    [/ QUOTE ]
    You're probably right, I didn't see an increase in the number of connections since yesterday. It was just a guess.

    Switching the NICs is nearly impossible because the box doesn't have enough PCI slots for 5 single cards and other 4-port cards are too expensive to just switch them without any strong suspect. I can try to swap the RealTek card though.

    I also don't think it's a license issue because according to the reports, the max. # of concurrent connections never exceeds ~500 and I think/expect that there is some other indication in the logs in case the ASL decides to drop dead because of this.

    Sascha
  • Well, I'd suggest you contact Astaro if you're a paying customer.

    Otherwise, did you run
    top
    ?
  •  [ QUOTE ]
     Well, I'd suggest you contact Astaro if you're a paying customer. 

    [/ QUOTE ] 
    Hmm, I'm trying to get my company to become one, but it's quite understandable that they don't want to pay for anything that doesn't work properly during the  evaluation phase. It's a chicken and egg problem: No support, no license - No license, no support.

    I did run top btw, I just can't make anything out of it. It doesn't seem to be a general memory problem.

    I might fall back to scheduled reboots as a last resort, but that in turn will void the support eventually - a vicious circle.

    Sascha
  • Maybe you should then contact one of the resellers. I guess, here in germany TLK would be a good choice. Maybe they'll help you if you plan to buy this product. BTW other firewall-vendors like checkpoint also won't give support before you bought the product. Do they have eval-versions?