This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA confd sync daemon not running - restarted [8.002]

I keep getting messages that HA confd sync daemon is not running and that it's being restarted... I didn't know keeping a HA setup alive would be such a pain [:(]

When I look in the selfmonitoring logs I see the following repeating over and over again:


2010:10:02-02:06:51 firewall-2 selfmonng[4604]: W triggerAction: 'cmd'
2010:10:02-02:06:51 firewall-2 selfmonng[4604]: W actionCmd(-): '/var/mdw/scripts/confd-sync start'
2010:10:02-02:06:56 firewall-2 selfmonng[4604]: I check Failed increment confd-sync_running counter 1 - 3
2010:10:02-02:07:01 firewall-2 selfmonng[4604]: I check Failed increment confd-sync_running counter 2 - 3
2010:10:02-02:07:06 firewall-2 selfmonng[4604]: W check Failed increment confd-sync_running counter 3 - 3
2010:10:02-02:07:06 firewall-2 selfmonng[4604]: W NOTIFYEVENT Name=confd-sync_running Level=INFO Id=170 suppressed 


This thread was automatically locked due to age.
Parents
  • I tried rebooting the slave node, now I am getting this error repeating over and over again:

    2010:10:02-09:59:42 firewall-1 slon[8016]: [69-1] CONFIG version for "dbname=reporting host=198.19.250.2 user=ha_sync password=slony" is 80404
    2010:10:02-09:59:42 firewall-1 slon[8016]: [70-1] ERROR remoteListenThread_2: "select "_asg_cluster".registerNodeConnection(1); " - ERROR: schema "_asg_cluster" does not exist
    2010:10:02-09:59:42 firewall-1 slon[8017]: [69-1] CONFIG version for "dbname=pop3 host=198.19.250.2 user=ha_sync password=slony" is 80404
    2010:10:02-09:59:42 firewall-1 slon[8017]: [70-1] ERROR remoteListenThread_2: "select "_asg_cluster".registerNodeConnection(1); " - ERROR: schema "_asg_cluster" does not exist
    2010:10:02-09:59:44 firewall-2 slon[6002]: [4-1] CONFIG slon: child terminated status: 0; pid: 7065, current worker pid: 7065
    2010:10:02-09:59:44 firewall-2 slon[6002]: [5-1] CONFIG slon: restart of worker
    2010:10:02-09:59:44 firewall-2 slon[6002]: [1-1] CONFIG main: slon version 2.0.3 starting up
    2010:10:02-09:59:44 firewall-2 slon[6002]: [2-1] CONFIG slon: watchdog ready - pid = 6002
    2010:10:02-09:59:44 firewall-2 slon[6002]: [3-1] CONFIG slon: worker process created - pid = 7072
    2010:10:02-09:59:44 firewall-2 slon[7072]: [3-1] CONFIG main: Integer option vac_frequency = 3
    2010:10:02-09:59:44 firewall-2 slon[7072]: [4-1] CONFIG main: Integer option log_level = -1
    2010:10:02-09:59:44 firewall-2 slon[7072]: [5-1] CONFIG main: Integer option sync_interval = 2000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [6-1] CONFIG main: Integer option sync_interval_timeout = 10000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [7-1] CONFIG main: Integer option sync_group_maxsize = 20
    2010:10:02-09:59:44 firewall-2 slon[7072]: [8-1] CONFIG main: Integer option desired_sync_time = 60000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [9-1] CONFIG main: Integer option syslog = 2
    2010:10:02-09:59:44 firewall-2 slon[7072]: [10-1] CONFIG main: Integer option quit_sync_provider = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [11-1] CONFIG main: Integer option quit_sync_finalsync = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [12-1] CONFIG main: Integer option sync_max_rowsize = 8192
    2010:10:02-09:59:44 firewall-2 slon[7072]: [13-1] CONFIG main: Integer option sync_max_largemem = 5242880
    2010:10:02-09:59:44 firewall-2 slon[7072]: [14-1] CONFIG main: Integer option remote_listen_timeout = 300
    2010:10:02-09:59:44 firewall-2 slon[7072]: [15-1] CONFIG main: Boolean option log_pid = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [16-1] CONFIG main: Boolean option log_timestamp = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [17-1] CONFIG main: Boolean option cleanup_deletelogs = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [18-1] CONFIG main: Real option real_placeholder = 0.000000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [19-1] CONFIG main: String option cluster_name = asg_cluster
    2010:10:02-09:59:44 firewall-2 slon[7072]: [20-1] CONFIG main: String option conn_info = dbname=pop3 user=ha_sync
    2010:10:02-09:59:44 firewall-2 slon[7072]: [21-1] CONFIG main: String option pid_file = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [22-1] CONFIG main: String option log_timestamp_format = %Y-%m-%d %H:%M:%S %Z
    2010:10:02-09:59:44 firewall-2 slon[7072]: [23-1] CONFIG main: String option archive_dir = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [24-1] CONFIG main: String option sql_on_connection = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [25-1] CONFIG main: String option lag_interval = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [26-1] CONFIG main: String option command_on_logarchive = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [27-1] CONFIG main: String option syslog_facility = LOG_DAEMON
    2010:10:02-09:59:44 firewall-2 slon[7072]: [28-1] CONFIG main: String option syslog_ident = slon
    2010:10:02-09:59:44 firewall-2 slon[7072]: [29-1] CONFIG main: String option cleanup_interval = 10 minutes
    2010:10:02-09:59:44 firewall-2 slon[7072]: [30-1] ERROR cannot get sl_local_node_id - ERROR: schema "_asg_cluster" does not exist
    2010:10:02-09:59:44 firewall-2 slon[7072]: [30-2] LINE 1: select last_value::int4 from "_asg_cluster".sl_local_node_id
    2010:10:02-09:59:44 firewall-2 slon[7072]: [30-3] ^
    2010:10:02-09:59:44 firewall-2 slon[7072]: [31-1] FATAL main: Node is not initialized properly - sleep 10s 


    During boot I also got a message:

    Starting D-Bus daeamonConnection failed; fd='33', server='AF_INET(198.19.250.1:514)', local=AF_INET(0.0.0.0:0)', error='Network is unreachable (101)'
    Initiating connection failed, reconnecting; time_reopen='60'

    (see attached image)

    I must say, I am getting quite pissed off... this new version has caused nothing but problems and no one from Astaro seems to read this forum [:(]
  • I must say, I am getting quite pissed off... this new version has caused nothing but problems and no one from Astaro seems to read this forum [:(]


    Hi Roy,

    We are very confident in the HA functionality and overall stability of V8 we have done a few big migrations and they where only with minor or no problems.

    Furthermore i would like to point out that u had no real problem at all, the "errors" in the HA log are normal and after some time they will stop (just like u experienced).
Reply
  • I must say, I am getting quite pissed off... this new version has caused nothing but problems and no one from Astaro seems to read this forum [:(]


    Hi Roy,

    We are very confident in the HA functionality and overall stability of V8 we have done a few big migrations and they where only with minor or no problems.

    Furthermore i would like to point out that u had no real problem at all, the "errors" in the HA log are normal and after some time they will stop (just like u experienced).
Children
  • Furthermore i would like to point out that u had no real problem at all, the "errors" in the HA log are normal and after some time they will stop (just like u experienced).


    Hi Bert,

    the problem is that I couldn't find any info regarding these errors, usually when I see such errors I try to resolve them... as I don't know what the severity is I need to make sure the HA solution will work. Especially when the errors show up in the logs every 10 seconds. So after spending another evening at the datacenter reinstalling the firewalls and seeing the same errors again I was a bit upset.

    Personally I would either document this in a FAQ or change the messages so I the user has an idea of what is going on.

    Kind regards,

    Fury