This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA working but questions left

Hi there,
The active/passive cluster of my IBM x3550 M3 and IBM x3550 with 9.106-17 seems to work for a couple of days since I set it up - but there are some questions left for me:

0) I cannot rename the passive node in webadmin, it is always shown as "unknown", editing it here will end up in a timeout of the WebGUI or simply does not change anything at all. No entry to the HA logfile, too. During the time the slave node is the active one I can see that it has the name I edited but when the other node is the active one again it is set to "unknown" as before. Just non-goodlucking but maybe there is a way to avoid this?

1) The failover took not 2 seconds but rather 20s. Anything I can do about that?

2) The HA-logfile is completely empty and I think this is OK but still wondering about not seeing any heartbeat notifications at all.

3) After the setup process I updated the former existent single UTM-Server and now "preferred master" to the same 9.106-17 I installed directly on the new an preferred slave node (it has a significant slower Xeon inside thats why the other one is preferred)
During that time I saw the following in HA-log:

[FONT="Courier New"]#zcat /var/log/high-availability/2013/11/high-availability-2013-11-03.log.gz 
2013:11:03-13:29:22 norway-1 conntrack-tools[16420]: no dedicated links available!
2013:11:03-13:29:22 norway-1 ha_daemon[16389]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
2013:11:03-13:30:09 norway-1 ha_daemon[16389]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
[/FONT]

(snip)

[FONT="Courier New"]38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: UP2DATE -> SYNCING"[/FONT]

(snip)

now syncing and up2dating the node 1, switching after approx. 20s to node 2 and now back:

[FONT="Courier New"]2013:11:03-14:40:35 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
2013:11:03-14:40:35 norway-1 repctl[8656]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:40:35 norway-1 repctl[8656]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:40:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:40:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:40:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:41:01 norway-1 repctl[8868]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:41:07 norway-2 conntrack-tools[16252]: flushing kernel conntrack table (scheduled)
2013:11:03-14:41:10 norway-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth2 "
2013:11:03-14:41:35 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth3 "
2013:11:03-14:41:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:41:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:41:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:42:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:42:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:42:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:43:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:43:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:43:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:44:46 norway-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Initial synchronization finished!"
2013:11:03-14:44:47 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: SYNCING -> ACTIVE"
2013:11:03-14:44:55 norway-2 repctl[9778]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:44:55 norway-2 repctl[9778]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:44:55 norway-2 repctl[9778]: [w] recheck(1253): re-initialising replication
2013:11:03-14:44:55 norway-2 repctl[9778]:  execute(2324): pg_ctl: no server running
2013:11:03-14:44:55 norway-2 repctl[9778]:  execute(2324): pg_ctl: PID file "/var/storage/pgsql92/data/postmaster.pid" does not exist
2013:11:03-14:44:57 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 2"
2013:11:03-14:44:57 norway-2 repctl[9778]:  start_backup_mode(883): starting backup mode at 0000000100000013000000E1
2013:11:03-14:44:59 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 2"
2013:11:03-14:44:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:44:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:44:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:45:31 norway-2 repctl[9778]:  stop_backup_mode(904): stopped backup mode at 0000000100000013000000E1
2013:11:03-14:45:31 norway-2 repctl[9778]:  execute(2324): waiting for server to start...
2013:11:03-14:45:31 norway-2 repctl[9778]:  execute(2324): .
2013:11:03-14:45:32 norway-2 repctl[9778]:  execute(2324):  done
2013:11:03-14:45:32 norway-2 repctl[9778]: [e] start_monitor(1441): refusing to start second monitor process
2013:11:03-14:45:32 norway-2 repctl[9778]:  setup_replication(233): checkinterval 300
2013:11:03-14:45:33 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for database on node 2"[/FONT]


(EOF)

This is the last entry at all in any HA logfile. I received an E-Mail that the preferred master is now back and active again und the Webadmin shows exactly that.

So is there anything left from these "could not connect..." messages I should be afraid of ore is everything fine right now as shown in the WebGUI?


This thread was automatically locked due to age.
Parents
  • hi Bob,
    sorry if I wrote this unclear in my postings.

    but yes, both nodes are at 9.106-17, node2 directly installed from ISO, node1 right after joining the second node via u2date from  9.106-16 =>  9.106-17.

    This is been always correctly displayed in Webadmin and has never been a problem...


    cheers - Chris
Reply
  • hi Bob,
    sorry if I wrote this unclear in my postings.

    but yes, both nodes are at 9.106-17, node2 directly installed from ISO, node1 right after joining the second node via u2date from  9.106-16 =>  9.106-17.

    This is been always correctly displayed in Webadmin and has never been a problem...


    cheers - Chris
Children
No Data