This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA confd sync daemon not running - restarted [8.002]

I keep getting messages that HA confd sync daemon is not running and that it's being restarted... I didn't know keeping a HA setup alive would be such a pain [:(]

When I look in the selfmonitoring logs I see the following repeating over and over again:


2010:10:02-02:06:51 firewall-2 selfmonng[4604]: W triggerAction: 'cmd'
2010:10:02-02:06:51 firewall-2 selfmonng[4604]: W actionCmd(-): '/var/mdw/scripts/confd-sync start'
2010:10:02-02:06:56 firewall-2 selfmonng[4604]: I check Failed increment confd-sync_running counter 1 - 3
2010:10:02-02:07:01 firewall-2 selfmonng[4604]: I check Failed increment confd-sync_running counter 2 - 3
2010:10:02-02:07:06 firewall-2 selfmonng[4604]: W check Failed increment confd-sync_running counter 3 - 3
2010:10:02-02:07:06 firewall-2 selfmonng[4604]: W NOTIFYEVENT Name=confd-sync_running Level=INFO Id=170 suppressed 


This thread was automatically locked due to age.
  • I just woke up only to see a big list of emails:


    HA confd sync daemon not running - restarted

    -- 
    HA Status          : HA SLAVE (node id: 2)
    System Uptime      : 0 days 10 hours 43 minutes
    System Load        : 0.14
    System Version     : Astaro Security Gateway Software 8.002

    Please refer to the manual for detailed instructions.


    I must say I am a bit disappointed, I installed these machines from scratch and they are allready causing problems... I was always under the impression that Astaro was very robust software but version 8 seems very buggy to me [:(]

    About 2 weeks ago I was still running the 7.57 version on a single machine, that worked perfectly!
  • I tried rebooting the slave node, now I am getting this error repeating over and over again:

    2010:10:02-09:59:42 firewall-1 slon[8016]: [69-1] CONFIG version for "dbname=reporting host=198.19.250.2 user=ha_sync password=slony" is 80404
    2010:10:02-09:59:42 firewall-1 slon[8016]: [70-1] ERROR remoteListenThread_2: "select "_asg_cluster".registerNodeConnection(1); " - ERROR: schema "_asg_cluster" does not exist
    2010:10:02-09:59:42 firewall-1 slon[8017]: [69-1] CONFIG version for "dbname=pop3 host=198.19.250.2 user=ha_sync password=slony" is 80404
    2010:10:02-09:59:42 firewall-1 slon[8017]: [70-1] ERROR remoteListenThread_2: "select "_asg_cluster".registerNodeConnection(1); " - ERROR: schema "_asg_cluster" does not exist
    2010:10:02-09:59:44 firewall-2 slon[6002]: [4-1] CONFIG slon: child terminated status: 0; pid: 7065, current worker pid: 7065
    2010:10:02-09:59:44 firewall-2 slon[6002]: [5-1] CONFIG slon: restart of worker
    2010:10:02-09:59:44 firewall-2 slon[6002]: [1-1] CONFIG main: slon version 2.0.3 starting up
    2010:10:02-09:59:44 firewall-2 slon[6002]: [2-1] CONFIG slon: watchdog ready - pid = 6002
    2010:10:02-09:59:44 firewall-2 slon[6002]: [3-1] CONFIG slon: worker process created - pid = 7072
    2010:10:02-09:59:44 firewall-2 slon[7072]: [3-1] CONFIG main: Integer option vac_frequency = 3
    2010:10:02-09:59:44 firewall-2 slon[7072]: [4-1] CONFIG main: Integer option log_level = -1
    2010:10:02-09:59:44 firewall-2 slon[7072]: [5-1] CONFIG main: Integer option sync_interval = 2000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [6-1] CONFIG main: Integer option sync_interval_timeout = 10000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [7-1] CONFIG main: Integer option sync_group_maxsize = 20
    2010:10:02-09:59:44 firewall-2 slon[7072]: [8-1] CONFIG main: Integer option desired_sync_time = 60000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [9-1] CONFIG main: Integer option syslog = 2
    2010:10:02-09:59:44 firewall-2 slon[7072]: [10-1] CONFIG main: Integer option quit_sync_provider = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [11-1] CONFIG main: Integer option quit_sync_finalsync = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [12-1] CONFIG main: Integer option sync_max_rowsize = 8192
    2010:10:02-09:59:44 firewall-2 slon[7072]: [13-1] CONFIG main: Integer option sync_max_largemem = 5242880
    2010:10:02-09:59:44 firewall-2 slon[7072]: [14-1] CONFIG main: Integer option remote_listen_timeout = 300
    2010:10:02-09:59:44 firewall-2 slon[7072]: [15-1] CONFIG main: Boolean option log_pid = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [16-1] CONFIG main: Boolean option log_timestamp = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [17-1] CONFIG main: Boolean option cleanup_deletelogs = 0
    2010:10:02-09:59:44 firewall-2 slon[7072]: [18-1] CONFIG main: Real option real_placeholder = 0.000000
    2010:10:02-09:59:44 firewall-2 slon[7072]: [19-1] CONFIG main: String option cluster_name = asg_cluster
    2010:10:02-09:59:44 firewall-2 slon[7072]: [20-1] CONFIG main: String option conn_info = dbname=pop3 user=ha_sync
    2010:10:02-09:59:44 firewall-2 slon[7072]: [21-1] CONFIG main: String option pid_file = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [22-1] CONFIG main: String option log_timestamp_format = %Y-%m-%d %H:%M:%S %Z
    2010:10:02-09:59:44 firewall-2 slon[7072]: [23-1] CONFIG main: String option archive_dir = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [24-1] CONFIG main: String option sql_on_connection = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [25-1] CONFIG main: String option lag_interval = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [26-1] CONFIG main: String option command_on_logarchive = [NULL]
    2010:10:02-09:59:44 firewall-2 slon[7072]: [27-1] CONFIG main: String option syslog_facility = LOG_DAEMON
    2010:10:02-09:59:44 firewall-2 slon[7072]: [28-1] CONFIG main: String option syslog_ident = slon
    2010:10:02-09:59:44 firewall-2 slon[7072]: [29-1] CONFIG main: String option cleanup_interval = 10 minutes
    2010:10:02-09:59:44 firewall-2 slon[7072]: [30-1] ERROR cannot get sl_local_node_id - ERROR: schema "_asg_cluster" does not exist
    2010:10:02-09:59:44 firewall-2 slon[7072]: [30-2] LINE 1: select last_value::int4 from "_asg_cluster".sl_local_node_id
    2010:10:02-09:59:44 firewall-2 slon[7072]: [30-3] ^
    2010:10:02-09:59:44 firewall-2 slon[7072]: [31-1] FATAL main: Node is not initialized properly - sleep 10s 


    During boot I also got a message:

    Starting D-Bus daeamonConnection failed; fd='33', server='AF_INET(198.19.250.1:514)', local=AF_INET(0.0.0.0:0)', error='Network is unreachable (101)'
    Initiating connection failed, reconnecting; time_reopen='60'

    (see attached image)

    I must say, I am getting quite pissed off... this new version has caused nothing but problems and no one from Astaro seems to read this forum [:(]
  • Fury, this is not a way to contact Astaro. No one from Astaro is paid to come here - those who do so come on their own time as volunteers.

    Frankly, I have only one client that might move to V8 now that 8.002 is available, but that depends on what I see in the forums here.  If this is supposed to be a production setup, I'd suggest you stay with V7.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Fury, this is not a way to contact Astaro. No one from Astaro is paid to come here - those who do so come on their own time as volunteers.

    Frankly, I have only one client that might move to V8 now that 8.002 is available, but that depends on what I see in the forums here.  If this is supposed to be a production setup, I'd suggest you stay with V7.


    I thought this forum was also monitored by Astaro, what I don't understand is how they can launch a product that is not production ready yet.

    Greetz,

    Fury
  • Well, I suppose that I'm more-conservative than most: I didn't upgrade to IE8 until the IE9 beta was announced.  My company never sold a computer with Vista on it; only XP until Win7 was solid enough.  So, "ready" has a different meaning for me than for most of the world! [;)]

    If you don't have a reseller with very strong technical skills, I would recommend your company upgrade to Premium/Platinum support.

    Good luck and Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Around 2 in the morning the error messages stopped, it looks like things are working now:


    2010:10:03-02:05:48 firewall-1 slon[8015]: [4-1] CONFIG slon: child terminated status: 0; pid: 22627, current worker pid: 22627
    2010:10:03-02:05:48 firewall-1 slon[8015]: [5-1] CONFIG slon: restart of worker
    2010:10:03-02:05:48 firewall-1 slon[8015]: [1-1] CONFIG main: slon version 2.0.3 starting up
    2010:10:03-02:05:48 firewall-1 slon[8015]: [2-1] CONFIG slon: watchdog ready - pid = 8015
    2010:10:03-02:05:48 firewall-1 slon[8015]: [3-1] CONFIG slon: worker process created - pid = 27000
    2010:10:03-02:05:48 firewall-1 slon[27000]: [3-1] CONFIG main: Integer option vac_frequency = 3
    2010:10:03-02:05:48 firewall-1 slon[27000]: [4-1] CONFIG main: Integer option log_level = -1
    2010:10:03-02:05:48 firewall-1 slon[27000]: [5-1] CONFIG main: Integer option sync_interval = 2000
    2010:10:03-02:05:48 firewall-1 slon[27000]: [6-1] CONFIG main: Integer option sync_interval_timeout = 10000
    2010:10:03-02:05:48 firewall-1 slon[27000]: [7-1] CONFIG main: Integer option sync_group_maxsize = 20
    2010:10:03-02:05:48 firewall-1 slon[27000]: [8-1] CONFIG main: Integer option desired_sync_time = 60000
    2010:10:03-02:05:48 firewall-1 slon[27000]: [9-1] CONFIG main: Integer option syslog = 2
    2010:10:03-02:05:48 firewall-1 slon[27000]: [10-1] CONFIG main: Integer option quit_sync_provider = 0
    2010:10:03-02:05:48 firewall-1 slon[27000]: [11-1] CONFIG main: Integer option quit_sync_finalsync = 0
    2010:10:03-02:05:48 firewall-1 slon[27000]: [12-1] CONFIG main: Integer option sync_max_rowsize = 8192
    2010:10:03-02:05:48 firewall-1 slon[27000]: [13-1] CONFIG main: Integer option sync_max_largemem = 5242880
    2010:10:03-02:05:48 firewall-1 slon[27000]: [14-1] CONFIG main: Integer option remote_listen_timeout = 300
    2010:10:03-02:05:48 firewall-1 slon[27000]: [15-1] CONFIG main: Boolean option log_pid = 0
    2010:10:03-02:05:48 firewall-1 slon[27000]: [16-1] CONFIG main: Boolean option log_timestamp = 0
    2010:10:03-02:05:48 firewall-1 slon[27000]: [17-1] CONFIG main: Boolean option cleanup_deletelogs = 0
    2010:10:03-02:05:48 firewall-1 slon[27000]: [18-1] CONFIG main: Real option real_placeholder = 0.000000
    2010:10:03-02:05:48 firewall-1 slon[27000]: [19-1] CONFIG main: String option cluster_name = asg_cluster
    2010:10:03-02:05:48 firewall-1 slon[27000]: [20-1] CONFIG main: String option conn_info = dbname=pop3 user=ha_sync
    2010:10:03-02:05:48 firewall-1 slon[27000]: [21-1] CONFIG main: String option pid_file = [NULL]
    2010:10:03-02:05:48 firewall-1 slon[27000]: [22-1] CONFIG main: String option log_timestamp_format = %Y-%m-%d %H:%M:%S %Z
    2010:10:03-02:05:48 firewall-1 slon[27000]: [23-1] CONFIG main: String option archive_dir = [NULL]
    2010:10:03-02:05:48 firewall-1 slon[27000]: [24-1] CONFIG main: String option sql_on_connection = [NULL]
    2010:10:03-02:05:48 firewall-1 slon[27000]: [25-1] CONFIG main: String option lag_interval = [NULL]
    2010:10:03-02:05:48 firewall-1 slon[27000]: [26-1] CONFIG main: String option command_on_logarchive = [NULL]
    2010:10:03-02:05:48 firewall-1 slon[27000]: [27-1] CONFIG main: String option syslog_facility = LOG_DAEMON
    2010:10:03-02:05:48 firewall-1 slon[27000]: [28-1] CONFIG main: String option syslog_ident = slon
    2010:10:03-02:05:48 firewall-1 slon[27000]: [29-1] CONFIG main: String option cleanup_interval = 10 minutes
    2010:10:03-02:05:49 firewall-1 slon[27000]: [30-1] CONFIG main: local node id = 1
    2010:10:03-02:05:49 firewall-1 slon[27000]: [31-1] CONFIG main: launching sched_start_mainloop
    2010:10:03-02:05:49 firewall-1 slon[27000]: [32-1] CONFIG main: loading current cluster configuration
    2010:10:03-02:05:49 firewall-1 slon[27000]: [33-1] CONFIG storeNode: no_id=2 no_comment='Node 2'
    2010:10:03-02:05:49 firewall-1 slon[27000]: [34-1] CONFIG storePath: pa_server=2 pa_client=1 pa_conninfo="dbname=pop3 host=198.19.250.2 user=ha_sync password=slony"
    2010:10:03-02:05:49 firewall-1 slon[27000]: [34-2]  pa_connretry=10
    2010:10:03-02:05:49 firewall-1 slon[27000]: [35-1] CONFIG storeListen: li_origin=2 li_receiver=1 li_provider=2
    2010:10:03-02:05:49 firewall-1 slon[27000]: [36-1] CONFIG storeSet: set_id=1 set_origin=1 set_comment='pop3 tables'
    2010:10:03-02:05:49 firewall-1 slon[27000]: [37-1] CONFIG main: last local event sequence = 5000000021
    2010:10:03-02:05:49 firewall-1 slon[27000]: [38-1] CONFIG main: configuration complete - starting threads
    2010:10:03-02:05:49 firewall-1 slon[27000]: [39-1] CONFIG version for "dbname=pop3 user=ha_sync" is 80404
    2010:10:03-02:05:49 firewall-1 slon[27000]: [40-1] CONFIG enableNode: no_id=2
    2010:10:03-02:05:49 firewall-1 slon[27000]: [41-1] CONFIG cleanupThread: thread starts
    2010:10:03-02:05:49 firewall-1 slon[27000]: [42-1] CONFIG cleanupThread: bias = 35383
    2010:10:03-02:05:49 firewall-1 slon[27000]: [43-1] CONFIG version for "dbname=pop3 user=ha_sync" is 80404
    2010:10:03-02:05:49 firewall-1 slon[27000]: [44-1] CONFIG version for "dbname=pop3 host=198.19.250.2 user=ha_sync password=slony" is 80404
    2010:10:03-02:05:49 firewall-1 slon[27000]: [45-1] CONFIG remoteWorkerThread_2: update provider configuration
    2010:10:03-02:05:49 firewall-1 slon[27000]: [46-1] CONFIG version for "dbname=pop3 user=ha_sync" is 80404
    2010:10:03-02:05:49 firewall-1 slon[27000]: [47-1] CONFIG version for "dbname=pop3 user=ha_sync" is 80404
    2010:10:03-02:05:49 firewall-1 slon[27000]: [48-1] CONFIG storeListen: li_origin=2 li_receiver=1 li_provider=2
    2010:10:03-02:05:49 firewall-1 slon[27000]: [49-1] CONFIG remoteWorkerThread_2: update provider configuration
    2010:10:03-02:10:27 firewall-1 slon_control[13436]: Initial synchronization for node 2 finished!
    2010:10:03-02:10:27 firewall-1 ha_daemon[12829]: id="38A0" severity="info" sys="System" sub="ha" name="Deactivating sync process for database on node 2"
    2010:10:03-02:10:41 firewall-2 ha_daemon[4399]: id="38A0" severity="info" sys="System" sub="ha" name="Initial synchronization finished!"
    2010:10:03-02:10:42 firewall-1 ha_daemon[12829]: id="38A0" severity="info" sys="System" sub="ha" name="Node 2 changed state: SYNCING -> ACTIVE"


    Why it takes 12+ hours and 5Mb of HA logs to finally restart some stuff and reinstall a node I don't get... but it's finally working [:)]
  • I must say, I am getting quite pissed off... this new version has caused nothing but problems and no one from Astaro seems to read this forum [:(]


    Hi Roy,

    We are very confident in the HA functionality and overall stability of V8 we have done a few big migrations and they where only with minor or no problems.

    Furthermore i would like to point out that u had no real problem at all, the "errors" in the HA log are normal and after some time they will stop (just like u experienced).
  • Furthermore i would like to point out that u had no real problem at all, the "errors" in the HA log are normal and after some time they will stop (just like u experienced).


    Hi Bert,

    the problem is that I couldn't find any info regarding these errors, usually when I see such errors I try to resolve them... as I don't know what the severity is I need to make sure the HA solution will work. Especially when the errors show up in the logs every 10 seconds. So after spending another evening at the datacenter reinstalling the firewalls and seeing the same errors again I was a bit upset.

    Personally I would either document this in a FAQ or change the messages so I the user has an idea of what is going on.

    Kind regards,

    Fury