Guest User!

You are not Sophos Staff.

This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

High CPU usage in cluster node

Hello, I have  2 ASG 320 in HA cluster configuration  and sometimes happen a strange problem:
The primary node  use high CPU ( 100% ) for 8-10 min; all performance degrade so VPN , incoming connections, and occasionally webadmin authentications fails.
I have identified some HA Sync daemon restart in those case
"HA confd sync daemon not running - restarted" and also "HA ctsync daemon not running - restarted".

Both ASG were restarted but problem persist; any idea ?

ASG version 7.507, pattern 20497
high cpu load was xpecially identifyed on the slave node, I suspect problem syncronization when changing role from master to slave

2010:10:20-10:56:27 firemin-2 kernel: nf_log_packet: can't log since no backend logging module loaded in! Please either load one, or disable logging explicitly
2010:10:20-10:56:28 firemin-2 kernel: asg_cluster: set master_id to 1
2010:10:20-10:56:49 firemin-2 kernel: nf_log_packet: can't log since no backend logging module loaded in! Please either load one, or disable logging explicitly

In my opinion when a high in/out going connection was detected and cpu load >80% cluster fail to check heartbeats and try to switch node but fail during datafile syncronizations.

look attached log :


This thread was automatically locked due to age.
Parents
  • You really need to see what top says when you're seeing the error messages in the HA live log.

    Cheers - Bob
  • Looking the process list with ssh connection I've found POSTGRES process using high CPU resources.
    In the screenshot you can see it useing just 38% but I've seen it on max of 45%.

    In the system messages log I've found this:
    2010:10:21-10:15:11 firemin-1 postgres[13009]: [3-1] LOG:  unexpected EOF on client connection
    2010:10:21-10:15:14 firemin-1 postgres[13265]: [3-1] ERROR:  duplicate key value violates unique constraint "primary_l"
    2010:10:21-10:17:00 firemin-1 postgres[13531]: [3-1] LOG:  unexpected EOF on client connection

    If I take a look into system messages log file of yesterday I see a lot of Database activity when I've got the problem.
    Maybe is necessary do some Database maintenance activity?
Reply
  • Looking the process list with ssh connection I've found POSTGRES process using high CPU resources.
    In the screenshot you can see it useing just 38% but I've seen it on max of 45%.

    In the system messages log I've found this:
    2010:10:21-10:15:11 firemin-1 postgres[13009]: [3-1] LOG:  unexpected EOF on client connection
    2010:10:21-10:15:14 firemin-1 postgres[13265]: [3-1] ERROR:  duplicate key value violates unique constraint "primary_l"
    2010:10:21-10:17:00 firemin-1 postgres[13531]: [3-1] LOG:  unexpected EOF on client connection

    If I take a look into system messages log file of yesterday I see a lot of Database activity when I've got the problem.
    Maybe is necessary do some Database maintenance activity?
Children
No Data