This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA working but questions left

Hi there,
The active/passive cluster of my IBM x3550 M3 and IBM x3550 with 9.106-17 seems to work for a couple of days since I set it up - but there are some questions left for me:

0) I cannot rename the passive node in webadmin, it is always shown as "unknown", editing it here will end up in a timeout of the WebGUI or simply does not change anything at all. No entry to the HA logfile, too. During the time the slave node is the active one I can see that it has the name I edited but when the other node is the active one again it is set to "unknown" as before. Just non-goodlucking but maybe there is a way to avoid this?

1) The failover took not 2 seconds but rather 20s. Anything I can do about that?

2) The HA-logfile is completely empty and I think this is OK but still wondering about not seeing any heartbeat notifications at all.

3) After the setup process I updated the former existent single UTM-Server and now "preferred master" to the same 9.106-17 I installed directly on the new an preferred slave node (it has a significant slower Xeon inside thats why the other one is preferred)
During that time I saw the following in HA-log:

[FONT="Courier New"]#zcat /var/log/high-availability/2013/11/high-availability-2013-11-03.log.gz 
2013:11:03-13:29:22 norway-1 conntrack-tools[16420]: no dedicated links available!
2013:11:03-13:29:22 norway-1 ha_daemon[16389]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
2013:11:03-13:30:09 norway-1 ha_daemon[16389]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
[/FONT]

(snip)

[FONT="Courier New"]38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: UP2DATE -> SYNCING"[/FONT]

(snip)

now syncing and up2dating the node 1, switching after approx. 20s to node 2 and now back:

[FONT="Courier New"]2013:11:03-14:40:35 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
2013:11:03-14:40:35 norway-1 repctl[8656]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:40:35 norway-1 repctl[8656]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:40:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:40:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:40:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:41:01 norway-1 repctl[8868]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:41:07 norway-2 conntrack-tools[16252]: flushing kernel conntrack table (scheduled)
2013:11:03-14:41:10 norway-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth2 "
2013:11:03-14:41:35 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth3 "
2013:11:03-14:41:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:41:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:41:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:42:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:42:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:42:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:43:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:43:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:43:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:44:46 norway-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Initial synchronization finished!"
2013:11:03-14:44:47 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: SYNCING -> ACTIVE"
2013:11:03-14:44:55 norway-2 repctl[9778]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:44:55 norway-2 repctl[9778]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:44:55 norway-2 repctl[9778]: [w] recheck(1253): re-initialising replication
2013:11:03-14:44:55 norway-2 repctl[9778]:  execute(2324): pg_ctl: no server running
2013:11:03-14:44:55 norway-2 repctl[9778]:  execute(2324): pg_ctl: PID file "/var/storage/pgsql92/data/postmaster.pid" does not exist
2013:11:03-14:44:57 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 2"
2013:11:03-14:44:57 norway-2 repctl[9778]:  start_backup_mode(883): starting backup mode at 0000000100000013000000E1
2013:11:03-14:44:59 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 2"
2013:11:03-14:44:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:44:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:44:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:45:31 norway-2 repctl[9778]:  stop_backup_mode(904): stopped backup mode at 0000000100000013000000E1
2013:11:03-14:45:31 norway-2 repctl[9778]:  execute(2324): waiting for server to start...
2013:11:03-14:45:31 norway-2 repctl[9778]:  execute(2324): .
2013:11:03-14:45:32 norway-2 repctl[9778]:  execute(2324):  done
2013:11:03-14:45:32 norway-2 repctl[9778]: [e] start_monitor(1441): refusing to start second monitor process
2013:11:03-14:45:32 norway-2 repctl[9778]:  setup_replication(233): checkinterval 300
2013:11:03-14:45:33 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for database on node 2"[/FONT]


(EOF)

This is the last entry at all in any HA logfile. I received an E-Mail that the preferred master is now back and active again und the Webadmin shows exactly that.

So is there anything left from these "could not connect..." messages I should be afraid of ore is everything fine right now as shown in the WebGUI?


This thread was automatically locked due to age.
Parents
  • Good morning,

    Tested the cluster failover twice - everything is working as expected, takeovertime is now 2s (5 ping-timeouts) - this is very good.

    Still the name of the node2 is "unknown" as long as node1 is active, when node2 becomes master both the names are correctly displayed in WebAdmin.

    I´ll ignore that as I will ignore the bunch of errors beeing logged as long as the result is fine:


    [FONT="Courier New"] berlin:/root # tail -fn 500 /var/log/high-availability.log 
    2013:11:07-08:42:12 berlin-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="--- Node is disabled ---"
    2013:11:07-08:42:12 berlin-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="HA daemon shutting down"
    2013:11:07-08:42:13 berlin-1 repctl[4462]:  stop_hawatch(1808): killing hawatch process
    2013:11:07-08:42:15 berlin-2 ha_daemon[7419]: id="38C1" severity="info" sys="System" sub="ha" name="Node 1 is dead, received no heart beats!"
    2013:11:07-08:42:15 berlin-2 ha_daemon[7419]: id="38B5" severity="info" sys="System" sub="ha" name="Master is dead, taking over!"
    2013:11:07-08:42:15 berlin-2 ha_daemon[7419]: id="38B0" severity="info" sys="System" sub="ha" name="Switching to Master mode"
    2013:11:07-08:42:15 berlin-2 repctl[16830]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:15 berlin-2 repctl[9778]:  recheck(1243): replication promoting to primary
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: committing all external caches
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: Committed 445 new entries
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: commit has taken 0.014893 seconds
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: flushing caches
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: resync with master conntrack table
    2013:11:07-08:42:15 berlin-2 repctl[16851]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:16 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:42:16 berlin-2 repctld[15498]: [w] master_connection(2571): check_dbh: -1
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Initializing tinyproxy ...
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Reloading config file
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Listening on IP 0.0.0.0
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Setting "Via" header to 'Astaro HA Proxy'
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Adding Port [443] to the list allowed by CONNECT
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Now running as group "nogroup".
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Now running as user "nobody".
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Creating child number 1 of 1 ...
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Finished creating all children.
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Setting the various signals.
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Starting main loop. Accepting connections.
    2013:11:07-08:42:18 berlin-1 repctl[4462]: [e] do_kill(1879): pid 7425 not terminated after 5 seconds - sending KILL
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] db_connect(2694): timeout while connecting to database
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] master_connection(2601): (timeout)
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] db_connect(2694): timeout while connecting to database
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] master_connection(2601): (timeout)
    2013:11:07-08:42:20 berlin-2 repctl[9778]: [e] do_kill(1879): pid 15498 not terminated after 5 seconds - sending KILL
    2013:11:07-08:42:20 berlin-2 repctl[9778]: [e] do_kill(1879): pid 15498 not terminated after 5 seconds - sending KILL
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  start_hawatch(1691): forked repctl hawatch daemon, pid 17358
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  start_hawatch(1691): forked repctl hawatch daemon, pid 17358
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): waiting for server to shut down...
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): waiting for server to shut down...
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:21 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:21 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324): waiting for server to start....
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324): waiting for server to start....
    2013:11:07-08:42:23 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:23 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:24 berlin-2 repctl[17445]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:24 berlin-2 repctl[17445]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:25 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:42:25 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:43:00 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth2 "
    2013:11:07-08:43:31 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:43:31 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:43:33 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:44:00 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:44:00 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:44:02 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:44:11 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:44:11 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:44:13 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:44:14 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:44:14 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:44:17 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:45:55 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:45:55 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:45:58 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:46:43 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:46:43 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:46:45 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:46:53 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Access granted to remote node 1!"
    2013:11:07-08:46:56 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 joined with version 9.106017"
    2013:11:07-08:46:56 berlin-2 ha_daemon[7419]: id="38C0" severity="info" sys="System" sub="ha" name="Node 1 is alive!"
    2013:11:07-08:46:56 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: DEAD -> SYNCING"
    2013:11:07-08:46:56 berlin-2 repctl[18509]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:46:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 1"
    2013:11:07-08:46:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 1"
    2013:11:07-08:47:01 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for config on node 1"
    2013:11:07-08:47:04 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for config on node 1"
    2013:11:07-08:47:45 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for database on node 1"
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: SYNCING -> ACTIVE"
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38C2" severity="info" sys="System" sub="ha" name="Preempt Slave 1, initiating graceful takeover!"
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38B1" severity="info" sys="System" sub="ha" name="Switching to Slave mode"
    2013:11:07-08:51:57 berlin-2 conntrack-tools[16252]: flushing conntrack table in 60 secs
    2013:11:07-08:51:57 berlin-2 conntrack-tools[16252]: request resync
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:51:58 berlin-2 ha_proxy[17055]: Shutting down.
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38A1" severity="warn" sys="System" sub="ha" name="Another slave around!"
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38A1" severity="warn" sys="System" sub="ha" name="Another slave around!"
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38B8" severity="info" sys="System" sub="ha" name="Worker 1 with better connectivity around, initiating graceful takeover!"
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38B2" severity="info" sys="System" sub="ha" name="Switching to Worker mode"
    2013:11:07-08:52:02 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed mode: SLAVE -> MASTER"
    2013:11:07-08:52:02 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed mode: SLAVE -> MASTER"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="cluster mode: set master id to 1"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="cluster mode: set master id to 1"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B7" severity="info" sys="System" sub="ha" name="Slave is dead, taking over!"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B1" severity="info" sys="System" sub="ha" name="Switching to Slave mode"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B7" severity="info" sys="System" sub="ha" name="Slave is dead, taking over!"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B1" severity="info" sys="System" sub="ha" name="Switching to Slave mode"[/FONT]

    And look: there are no heartbeat-notifications as long as there is no failure. [:)]

    At the end I feel proved to not always listen to the first support-advice: "Re-install everything" [;)]
Reply
  • Good morning,

    Tested the cluster failover twice - everything is working as expected, takeovertime is now 2s (5 ping-timeouts) - this is very good.

    Still the name of the node2 is "unknown" as long as node1 is active, when node2 becomes master both the names are correctly displayed in WebAdmin.

    I´ll ignore that as I will ignore the bunch of errors beeing logged as long as the result is fine:


    [FONT="Courier New"] berlin:/root # tail -fn 500 /var/log/high-availability.log 
    2013:11:07-08:42:12 berlin-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="--- Node is disabled ---"
    2013:11:07-08:42:12 berlin-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="HA daemon shutting down"
    2013:11:07-08:42:13 berlin-1 repctl[4462]:  stop_hawatch(1808): killing hawatch process
    2013:11:07-08:42:15 berlin-2 ha_daemon[7419]: id="38C1" severity="info" sys="System" sub="ha" name="Node 1 is dead, received no heart beats!"
    2013:11:07-08:42:15 berlin-2 ha_daemon[7419]: id="38B5" severity="info" sys="System" sub="ha" name="Master is dead, taking over!"
    2013:11:07-08:42:15 berlin-2 ha_daemon[7419]: id="38B0" severity="info" sys="System" sub="ha" name="Switching to Master mode"
    2013:11:07-08:42:15 berlin-2 repctl[16830]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:15 berlin-2 repctl[9778]:  recheck(1243): replication promoting to primary
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: committing all external caches
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: Committed 445 new entries
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: commit has taken 0.014893 seconds
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: flushing caches
    2013:11:07-08:42:15 berlin-2 conntrack-tools[16252]: resync with master conntrack table
    2013:11:07-08:42:15 berlin-2 repctl[16851]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:16 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:42:16 berlin-2 repctld[15498]: [w] master_connection(2571): check_dbh: -1
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Initializing tinyproxy ...
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Reloading config file
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Listening on IP 0.0.0.0
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Setting "Via" header to 'Astaro HA Proxy'
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Adding Port [443] to the list allowed by CONNECT
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Now running as group "nogroup".
    2013:11:07-08:42:17 berlin-2 ha_proxy[17049]: Now running as user "nobody".
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Creating child number 1 of 1 ...
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Finished creating all children.
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Setting the various signals.
    2013:11:07-08:42:17 berlin-2 ha_proxy[17055]: Starting main loop. Accepting connections.
    2013:11:07-08:42:18 berlin-1 repctl[4462]: [e] do_kill(1879): pid 7425 not terminated after 5 seconds - sending KILL
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] db_connect(2694): timeout while connecting to database
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] master_connection(2601): (timeout)
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] db_connect(2694): timeout while connecting to database
    2013:11:07-08:42:19 berlin-2 repctld[15498]: [e] master_connection(2601): (timeout)
    2013:11:07-08:42:20 berlin-2 repctl[9778]: [e] do_kill(1879): pid 15498 not terminated after 5 seconds - sending KILL
    2013:11:07-08:42:20 berlin-2 repctl[9778]: [e] do_kill(1879): pid 15498 not terminated after 5 seconds - sending KILL
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  start_hawatch(1691): forked repctl hawatch daemon, pid 17358
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  start_hawatch(1691): forked repctl hawatch daemon, pid 17358
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): waiting for server to shut down...
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): waiting for server to shut down...
    2013:11:07-08:42:20 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:20 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:21 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:21 berlin-2 repctl[9778]:  execute(2324): .
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: server closed the connection unexpectedly
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
    2013:11:07-08:42:22 berlin-2 repctld[17358]: [w] ha_watch(1755): lost database connection
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324): waiting for server to start....
    2013:11:07-08:42:22 berlin-2 repctl[9778]:  execute(2324): waiting for server to start....
    2013:11:07-08:42:23 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:23 berlin-2 repctl[9778]:  execute(2324):  done
    2013:11:07-08:42:24 berlin-2 repctl[17445]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:24 berlin-2 repctl[17445]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:42:25 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:42:25 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:43:00 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth2 "
    2013:11:07-08:43:31 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:43:31 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:43:33 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:44:00 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:44:00 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:44:02 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:44:11 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:44:11 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:44:13 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:44:14 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:44:14 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:44:17 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:45:55 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:45:55 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:45:58 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:46:43 berlin-2 conntrack-tools[16252]: no dedicated links available!
    2013:11:07-08:46:43 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
    2013:11:07-08:46:45 berlin-2 ha_daemon[7419]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
    2013:11:07-08:46:53 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Access granted to remote node 1!"
    2013:11:07-08:46:56 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 joined with version 9.106017"
    2013:11:07-08:46:56 berlin-2 ha_daemon[7419]: id="38C0" severity="info" sys="System" sub="ha" name="Node 1 is alive!"
    2013:11:07-08:46:56 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: DEAD -> SYNCING"
    2013:11:07-08:46:56 berlin-2 repctl[18509]:  daemonize_check(2008): trying to signal daemon
    2013:11:07-08:46:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 1"
    2013:11:07-08:46:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 1"
    2013:11:07-08:47:01 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for config on node 1"
    2013:11:07-08:47:04 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for config on node 1"
    2013:11:07-08:47:45 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for database on node 1"
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed state: SYNCING -> ACTIVE"
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38C2" severity="info" sys="System" sub="ha" name="Preempt Slave 1, initiating graceful takeover!"
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38B1" severity="info" sys="System" sub="ha" name="Switching to Slave mode"
    2013:11:07-08:51:57 berlin-2 conntrack-tools[16252]: flushing conntrack table in 60 secs
    2013:11:07-08:51:57 berlin-2 conntrack-tools[16252]: request resync
    2013:11:07-08:51:57 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
    2013:11:07-08:51:58 berlin-2 ha_proxy[17055]: Shutting down.
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38A1" severity="warn" sys="System" sub="ha" name="Another slave around!"
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38A1" severity="warn" sys="System" sub="ha" name="Another slave around!"
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38B8" severity="info" sys="System" sub="ha" name="Worker 1 with better connectivity around, initiating graceful takeover!"
    2013:11:07-08:51:58 berlin-2 ha_daemon[7419]: id="38B2" severity="info" sys="System" sub="ha" name="Switching to Worker mode"
    2013:11:07-08:52:02 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed mode: SLAVE -> MASTER"
    2013:11:07-08:52:02 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Node 1 changed mode: SLAVE -> MASTER"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="cluster mode: set master id to 1"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="cluster mode: set master id to 1"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B7" severity="info" sys="System" sub="ha" name="Slave is dead, taking over!"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B1" severity="info" sys="System" sub="ha" name="Switching to Slave mode"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B7" severity="info" sys="System" sub="ha" name="Slave is dead, taking over!"
    2013:11:07-08:52:03 berlin-2 ha_daemon[7419]: id="38B1" severity="info" sys="System" sub="ha" name="Switching to Slave mode"[/FONT]

    And look: there are no heartbeat-notifications as long as there is no failure. [:)]

    At the end I feel proved to not always listen to the first support-advice: "Re-install everything" [;)]
Children
No Data