[7.386] New load balancer doesn't work well

I'm trying out the new Load Balancer under NetworkSecurity...

I can't get it to work well... I've setup one recently on our 7.305 and it worked, and I'm familiar with other LB's, so I _think_ I know what I'm doing...

On 7.386, I've defined a host definition for one of Google's IPs (74.125.95.104), and one of Yahoo's (209.131.36.158).

I've setup a load balancer for it, on the DMZ interface address of my firewall (10.0.0.254), service HTTP.
Check Type: http host
Check URL: /

It shows both hosts are UP on the load balancer status.

When I go to http://10.0.0.254/, it ALWAYS gets google. (using shift-reload in browser)

If I change the IP of the Google definition to 10.0.0.10, which is offline, the status then says 'DOWN' for google, BUT http://10.0.0.254/ ALWAYS FAILS!

Am I doing something wrong, or is something broken/not fully implemented yet?

Thanks,
Barry
Parents
  • I changed the Check Type to 'ping' (and fixed the net def for google) and now it ALWAYS loads Yahoo!

    Ditto for 'tcp' checks.

    Changed it back to 'http' using 'index.html' and it's still stuck on Yahoo.

    Barry
  • It didn't occur to me earlier that the lb might be 'sticky', e.g. a client will be sent to the same server as long as that server is up.
    If this is the case, _some_ of what I wrote about above is unimportant, but the problem where a server goes down and the client isn't sent to the one that is up is still a problem.

    Also, it might be nice to be able to set the 'sticky' flag when configuring a lb; for example, if I am balancing a database cluster for use by webserver clients, and there's an more webservers than dbs, it might not be good to 'stick' the webservers to a db server, as then some of the dbs could be much more heavily loaded.
    However, there may be more to the logic so I might be over-simplifying things.

    Regardless, it would be best if the lb is documented as to how it balances, otherwise it's hard to know what's going on.

    Thanks,
    Barry
  • * DNAT overrules LB entries. This way you can specify more accurate rules,
    e.g. from host x always to real server y.

    * Users stick for one hour to a real server. However if this real server is down,
    the balancing decision and persistence is generated again.

    * There are now plans to add Direct Routing. ASG is a Firewall, as such a device we
    want to see the incoming and outgoing traffic [:)]

    * No plans to add weight distribution yet. Normally all real servers are from the same type,
    so weight distribution makes no sense in that cases.
  • * DNAT overrules LB entries. This way you can specify more accurate rules,
    e.g. from host x always to real server y.

    * Users stick for one hour to a real server. However if this real server is down,
    the balancing decision and persistence is generated again.

    * There are now plans to add Direct Routing. ASG is a Firewall, as such a device we
    want to see the incoming and outgoing traffic [:)]


    ok thx for explanations...


    * No plans to add weight distribution yet. Normally all real servers are from the same type,
    so weight distribution makes no sense in that cases.


    except like for us we want to use severall services and load balanced them based on weight... ie: one backoffice service that we want to be used more on a server but in case this server is down for some reason or overloaded we want the other one be used...
    we are hosting resorts company and the service we provide consist of 2 web access (backoffice (used by hotels, ...) which goes essentially to one server and frontoffice (used by a regular web user who order for example for 1 week in Paris...) which goes on another server... BUT both services are loadbalanced with different weight so service keep running even if we reboot a server, do maintenance or whatever...
    and we do that way because on normal use we keep want to dedicate services to a given server... of course we also have cases with more than X servers loadbalanced equally...

    thx
  • Are there any changes to the 'stickiness' in 7.390?

    Thanks,
    Barry
  • No, should there be any?

    BTW: You could either disable persistence or change the persistence time with the command
    line tool confd-client.plx
  • No, should there be any?

    BTW: You could either disable persistence or change the persistence time with the command
    line tool confd-client.plx


    eheh using the confd-client.plx command directly from ubuntu 8.10 64bits is working perfectly [[:)]] I know now a way to interact with my Hostflow system [[:)]]
    thx
  • No, should there be any?

    BTW: You could either disable persistence or change the persistence time with the command
    line tool confd-client.plx


    Earlier you said


    * Users stick for one hour to a real server. However if this real server is down,
    the balancing decision and persistence is generated again.


    But last I tested, users were getting stuck to servers even when webmin showed they were down.
    I'll try to test it again today.

    Thanks,
    Barry
  • Testing with 7.390 now, this time internally

    Service: HTTP
    Virtual Server: Astaro Internal Address
    Servers: Laptop1, Laptop2
    Check Type: HTTP host, index.php, 15

    Astaro correctly sees whether the laptop servers are up or down, but it still is 'sticking' clients to servers even if the server goes down (and Astaro sees it's down).

    Can someone explain which commands or variables are used in confd-client.plx for the lb?

    Also, I notice that the laptops cannot use the loadbalancer to get to themselves. I don't know if this is an anti-spoofing feature or a bug.

    Thanks,
    Barry
  • My 2 windows PC's can hit the loadbalancer (still with same problem as above), but my linux pc cannot. All 3 are on the same VLAN, and the lb machines are on the WiFi VLAN.
    The linux PC can get to the end user portal on the same IP as the virtual LB.

    Barry
  • Since the last post from almost 2 hours ago, I went out to dinner, and now I'm back.

    Now, Astaro still (correctly) shows laptop1 is down and 2 is up.

    Now, the linux PC can hit the lb successfully (routed to the server which is up), but neither windows pc can.

    I'll fire up some sniffers, but the likely explanation is that the lb is badly broken.

    Barry
  • After 1 more hour (almost 3 hours now), Astaro finally seems to have done something about laptop1 being down, and all 3 clients are getting sent to laptop2. 

    So, lets bring laptop1 back up, and kill laptop2.
    Webmin correctly shows the status, but clients are still 'stuck' to laptop2.

    Sniffing the traffic confirms this.

    Thanks,
    Barry
Reply
  • After 1 more hour (almost 3 hours now), Astaro finally seems to have done something about laptop1 being down, and all 3 clients are getting sent to laptop2. 

    So, lets bring laptop1 back up, and kill laptop2.
    Webmin correctly shows the status, but clients are still 'stuck' to laptop2.

    Sniffing the traffic confirms this.

    Thanks,
    Barry
Children
No Data