This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA working but questions left

Hi there,
The active/passive cluster of my IBM x3550 M3 and IBM x3550 with 9.106-17 seems to work for a couple of days since I set it up - but there are some questions left for me:

0) I cannot rename the passive node in webadmin, it is always shown as "unknown", editing it here will end up in a timeout of the WebGUI or simply does not change anything at all. No entry to the HA logfile, too. During the time the slave node is the active one I can see that it has the name I edited but when the other node is the active one again it is set to "unknown" as before. Just non-goodlucking but maybe there is a way to avoid this?

1) The failover took not 2 seconds but rather 20s. Anything I can do about that?

2) The HA-logfile is completely empty and I think this is OK but still wondering about not seeing any heartbeat notifications at all.

3) After the setup process I updated the former existent single UTM-Server and now "preferred master" to the same 9.106-17 I installed directly on the new an preferred slave node (it has a significant slower Xeon inside thats why the other one is preferred)
During that time I saw the following in HA-log:

[FONT="Courier New"]#zcat /var/log/high-availability/2013/11/high-availability-2013-11-03.log.gz 
2013:11:03-13:29:22 norway-1 conntrack-tools[16420]: no dedicated links available!
2013:11:03-13:29:22 norway-1 ha_daemon[16389]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth0!"
2013:11:03-13:30:09 norway-1 ha_daemon[16389]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth0 again!"
[/FONT]

(snip)

[FONT="Courier New"]38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: UP2DATE -> SYNCING"[/FONT]

(snip)

now syncing and up2dating the node 1, switching after approx. 20s to node 2 and now back:

[FONT="Courier New"]2013:11:03-14:40:35 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Reading cluster configuration"
2013:11:03-14:40:35 norway-1 repctl[8656]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:40:35 norway-1 repctl[8656]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:40:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:40:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:40:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:41:01 norway-1 repctl[8868]:  daemonize_check(2008): trying to signal daemon
2013:11:03-14:41:07 norway-2 conntrack-tools[16252]: flushing kernel conntrack table (scheduled)
2013:11:03-14:41:10 norway-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth2 "
2013:11:03-14:41:35 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interfaces for link beat: eth1 eth3 "
2013:11:03-14:41:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:41:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:41:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:42:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:42:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:42:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:43:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:43:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:43:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:44:46 norway-2 ha_daemon[7419]: id="38A0" severity="info" sys="System" sub="ha" name="Initial synchronization finished!"
2013:11:03-14:44:47 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: SYNCING -> ACTIVE"
2013:11:03-14:44:55 norway-2 repctl[9778]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:44:55 norway-2 repctl[9778]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:44:55 norway-2 repctl[9778]: [w] recheck(1253): re-initialising replication
2013:11:03-14:44:55 norway-2 repctl[9778]:  execute(2324): pg_ctl: no server running
2013:11:03-14:44:55 norway-2 repctl[9778]:  execute(2324): pg_ctl: PID file "/var/storage/pgsql92/data/postmaster.pid" does not exist
2013:11:03-14:44:57 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 2"
2013:11:03-14:44:57 norway-2 repctl[9778]:  start_backup_mode(883): starting backup mode at 0000000100000013000000E1
2013:11:03-14:44:59 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Activating sync process for database on node 2"
2013:11:03-14:44:58 norway-2 repctld[15498]: [e] db_connect(2697): error while connecting to database: could not connect to server: No such file or directory
2013:11:03-14:44:58 norway-2 repctld[15498]: [c] local_connection(2643): cannot connect to local database: could not connect to server: No such file or directory
2013:11:03-14:44:58 norway-2 repctld[15498]: [e] do_monitor(1540): cannot get local database status
2013:11:03-14:45:31 norway-2 repctl[9778]:  stop_backup_mode(904): stopped backup mode at 0000000100000013000000E1
2013:11:03-14:45:31 norway-2 repctl[9778]:  execute(2324): waiting for server to start...
2013:11:03-14:45:31 norway-2 repctl[9778]:  execute(2324): .
2013:11:03-14:45:32 norway-2 repctl[9778]:  execute(2324):  done
2013:11:03-14:45:32 norway-2 repctl[9778]: [e] start_monitor(1441): refusing to start second monitor process
2013:11:03-14:45:32 norway-2 repctl[9778]:  setup_replication(233): checkinterval 300
2013:11:03-14:45:33 norway-1 ha_daemon[4311]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for database on node 2"[/FONT]


(EOF)

This is the last entry at all in any HA logfile. I received an E-Mail that the preferred master is now back and active again und the Webadmin shows exactly that.

So is there anything left from these "could not connect..." messages I should be afraid of ore is everything fine right now as shown in the WebGUI?


This thread was automatically locked due to age.
Parents
  • Chris, I wonder if you didn't get something out of sequence in setting up the HA configuration.

    0) This is a new one.  I would get some config backups and install both nodes from ISO.
    1) Failover should occur in milliseconds.  What lines do you see in the High Availability log that indicates longer?
    2) See #0
    3) See #0

    Cheers - Bob
Reply
  • Chris, I wonder if you didn't get something out of sequence in setting up the HA configuration.

    0) This is a new one.  I would get some config backups and install both nodes from ISO.
    1) Failover should occur in milliseconds.  What lines do you see in the High Availability log that indicates longer?
    2) See #0
    3) See #0

    Cheers - Bob
Children
No Data