This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

7.201 Locked up for no apparent reason

For the second time now, my ASG machine has just stopped responding.
Big gap in the hardware reporting graphs between exactly 7PM EST and when I realized it had locked up. I had to power cycle the box to get it back.
CPU and RAM usage were all consistent with normal operation (Very low CPU, and no more than 40% RAM usage). Then it just dies.
Anyone else having this issue?
See my sig for hardware config.


This thread was automatically locked due to age.
Parents
  • For the second time now, my ASG machine has just stopped responding.
    Big gap in the hardware reporting graphs between exactly 7PM EST and when I realized it had locked up. I had to power cycle the box to get it back.
    CPU and RAM usage were all consistent with normal operation (Very low CPU, and no more than 40% RAM usage). Then it just dies.
    Anyone else having this issue?
    See my sig for hardware config.

    512 megs of ram is the bare minimum..also what cpu is in that thing?  I bet the cpu is getting overwhelmed.

    Owner:  Emmanuel Technology Consulting

    http://etc-md.com

    Former Sophos SG(Astaro) advocate/researcher/Silver Partner

    PfSense w/Suricata, ntopng, 

    Other addons to follow

  • Could be a hardware problem... check the fans and make sure things aren't getting too hot.

    Running Memtest86 or Prime95 or similar overnight would be a good hw test. 

    Barry
  • Hi,
    what local networking hardware are you using, what devices talk through the ASG to the internet or other ports? What are the NICs you using eg chip type?

    Ian M
  • JimmyM, please refer to system.log of this day where firewall was freezed and copy the 10-20 last messages in this threat.

    Cheers
  • It was only showing 40% of RAM used and very little CPU. There wan't a lot of network traffic at the time.
    I'll post logs ASAP.
  • Here are the log entries at the time of the lock-up.
    See the line starting "2008:07:07-19:00:01".
    I restarted the box at 2008:07:07-21:43:14
    ---------------------LOG FILE SNIP-----------------------
    2008:07:07-18:55:47 (none) dhcpc-sh: DHCP connection fine. Checking again in 60 seconds
    2008:07:07-18:56:47 (none) dhcpc-sh: DHCP connection fine. Checking again in 60 seconds
    2008:07:07-18:57:48 (none) dhcpc-sh: DHCP connection fine. Checking again in 60 seconds
    2008:07:07-18:58:01 (none) /usr/sbin/cron[19688]: (root) CMD (test -x /usr/local/bin/snort-cleanup && /usr/local/bin/snort-cleanup)
    2008:07:07-18:58:48 (none) dhcpc-sh: DHCP connection fine. Checking again in 60 seconds
    2008:07:07-18:59:48 (none) dhcpc-sh: DHCP connection fine. Checking again in 60 seconds
    2008:07:07-19:00:01 (none) /usr/sbin/cron[19741]: (root) CMD (   /usr/local/bin/reportcontrol.sh)
    2008:07:07-19:00:01 (none) /usr/sbin/cron[19745]: (root) CMD (  nice -n19 /usr/local/bin/gen_inline_reporting_data.pl)
    2008:07:07-19:00:01 (none) /usr/sbin/cron[19739]: (root) CMD (nice -n19 /usr/local/bin/create_rrd_graphs.plx)
    2008:07:07-21:43:14 (none) syslog-ng[2619]: syslog-ng version 1.6.7 starting
    2008:07:07-21:43:25 (none) sysmond[2876]: sysmond 1.16 starting
    2008:07:07-21:43:25 (none) sysmond[2876]: daemonizing
    2008:07:07-21:43:30 (none) count_active_ip[2953]: count_active_ip 1.19: checking active IP addresses
    2008:07:07-21:43:31 (none) count_active_ip[2953]: Unlimited License - no counting needed
    2008:07:07-21:43:36 (none) /usr/sbin/cron[3091]: (CRON) STARTUP (V5.0)
    2008:07:07-21:43:41 (none) daemon-watcher[3251]: This is daemon-watcher v1.1 2004/02/11 11:56:23 ghansen  starting...
    2008:07:07-21:43:41 (none) daemon-watcher[3251]: Watching selfmonng.plx...
  • Hi,
    what local networking hardware are you using, what devices talk through the ASG to the internet or other ports? What are the NICs you using eg chip type?


    Ian, according to his sig, "Jetway J7F2WE1G Mini-ITX, 512MB RAM, AD3RTLANP", that'd be a Via C7 motherboard with onboard Realtek 10/100 NIC + a 3-port Realtek 10/100 module. There are several people on here using these (low-power) systems.

    I obviously can't speak for the rest of his network.

    Barry
  • Barry,
    That's correct. I have a very low volume network on a 5/2 Mbit fiber line. I host a mail server that hosts 2 accounts, and an FTP server that I use to distribute files (again, very low volume. 2 Mbit MAX).
    I had this hardware running without fault under 6.3xx for months at a time.
    No other network elements have changed.
    It looks like the create_rrd_graphs caused the problem, or was the last thing that got logged when another fault occured.
    This problem has occured twice so far, so, while troublesome, I'm not ready to call it quits on 7.2X and roll back to 6.3x. I'd like to see if someone else has a possible solution first.
    Thanks for the feedback.
  • Jimmy, have you checked to make sure the fans are still working?

    Barry
  • Jimmy, have you checked to make sure the fans are still working?

    Barry

    Yes. 2 case fans and one heatsink fan. All running.
    This machine is located in my basement which stays comfortable cool all the time.
  • What kind of ASG hardware do you use now ?

    Gregor Kemter
  • Jimmy, when the firewall "locked up", was there message on the screen? Was the keyboard responsive at all?

    I know this doesn't help much, but someone else a few days ago mentioned problems with his (flaky) switch locking and causing the Realtek NIC in Astaro to also lock up, requiring a cold reboot.

    New Realtek gigE drivers may be in a new Astaro version soon, but I don't know if that'll include a new 10/00 driver.

    Barry
Reply
  • Jimmy, when the firewall "locked up", was there message on the screen? Was the keyboard responsive at all?

    I know this doesn't help much, but someone else a few days ago mentioned problems with his (flaky) switch locking and causing the Realtek NIC in Astaro to also lock up, requiring a cold reboot.

    New Realtek gigE drivers may be in a new Astaro version soon, but I don't know if that'll include a new 10/00 driver.

    Barry
Children
  • Jimmy, when the firewall "locked up", was there message on the screen? Was the keyboard responsive at all?

    I know this doesn't help much, but someone else a few days ago mentioned problems with his (flaky) switch locking and causing the Realtek NIC in Astaro to also lock up, requiring a cold reboot.

    New Realtek gigE drivers may be in a new Astaro version soon, but I don't know if that'll include a new 10/00 driver.

    Barry

    I didn't check the screen. I thought of that about 3 seconds after I hit the reset button.
    I can see if I have another switch to substitute.
  • Since you have a license, you might want to open a support case, but I'm not sure how much they're going to be able to figure out with so little information.

    If it does it again, make sure to look at the screen, and if there's a kernel dump, take a picture of it.

    If you do talk to support, you might want to ask if they have any plans to update the Realtek drivers. According to various web sites, the chip on your NICs is probably a RTL8100C, but 
    lsmod
    or
    lscpi
    would be more definite.

    Barry
  • Perhaps. Maybe I'll just wait until/if it happens again and make sure I get more info if I can.
    It's a quick fix and my wife is usually home to hit the reset if I'm traveling.
    Thanks all.