This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

ASG v7 always crashes within a day?

Hi guys,

I am quite frustrated with my new ASG v7.005 setup at the moment. I installed it on my new Asus Pundit P1 Barebone (the specifications are in my signature) and there is always a certain point of the day where the ASG hangs so that you cannot login via ssh or webadmin. It is totally dead and needs a hard reboot.

I cannot access web pages as well, the internet is dead to me. I have http proxy running and IPS but I think my system has enough resources to manage. No I shut down the http proxy and will see if the ASG will still run tomorrow. Does anybody have the same problem? Here is a snippet of my kernel.log from the time the ASG crashes:

2007:07:09-07:49:18 (none) kernel: CSLIP: code copyright 1989 Regents of the University of California

2007:07:09-07:49:18 (none) kernel: PPP generic driver version 2.4.2
2007:07:09-07:49:19 (none) kernel: tun: Universal TUN/TAP device driver, 1.6
2007:07:09-07:49:19 (none) kernel: tun: (C) 1999-2004 Max Krasnyansky 
2007:07:09-07:49:20 (none) kernel: MPPE/MPPC encryption/compression module registered
2007:07:09-07:49:20 (none) kernel: PPP BSD Compression module registered
2007:07:09-07:49:20 (none) kernel: PPP Deflate Compression module registered
2007:07:09-07:49:25 (none) kernel: Ebtables v2.0 registered
2007:07:09-07:49:25 (none) kernel: netfilter PSD loaded - (c) astaro AG
2007:07:09-07:49:35 (none) kernel: parport0: PC-style at 0x378 [PCSPP(,...)]
2007:07:09-07:49:35 (none) kernel: parport0: PC-style at 0x378 [PCSPP(,...)]
2007:07:09-07:49:35 (none) kernel: Device not ready. Make sure there is a disc in the drive.
2007:07:09-07:49:35 (none) kernel: Device not ready. Make sure there is a disc in the drive.
2007:07:09-07:49:39 (none) kernel: device eth0 left promiscuous mode
2007:07:09-07:49:39 (none) kernel: eth0: Promiscuous mode enabled.
2007:07:09-07:49:39 (none) kernel: device eth0 entered promiscuous mode
2007:07:09-12:07:35 (none) kernel: Bad pte = 0000a666, process = confd.plx, vm_flags = 100077, vaddr = 8803f28
2007:07:09-12:07:35 (none) kernel: [] __handle_mm_fault+0x942/0x9c0
2007:07:09-12:07:35 (none) kernel: [] work_resched+0x5/0x16
2007:07:09-12:07:35 (none) kernel: [] notifier_call_chain+0x34/0x40
2007:07:09-12:07:35 (none) kernel: [] do_page_fault+0x3b2/0x640
2007:07:09-12:07:35 (none) kernel: [] do_page_fault+0x0/0x640
2007:07:09-12:07:35 (none) kernel: [] error_code+0x4f/0x54
2007:07:09-12:07:35 (none) kernel: VM: killing process confd.plx
2007:07:09-17:54:26 (none) kernel: Netfilter messages via NETLINK v0.30.


You can see that the ASG went down at around 12:07 this morning. At 17:54 I rebootet the device. Can you see anything in this log that logs suspicious? Do you need other logfile excerpts?

Thanks in advance for your help!


This thread was automatically locked due to age.
Parents
  • Forgot to mention that also the up2date service isn't running correctly. Sometimes it works and sometimes not. Here is my version:

    Current pattern version: 3562
    Latest available pattern version: 3571

    This is the pattern I have for over a day now! And I do not have that much traffic here at home, just two Macintosh computers...
  • Radiohead, the kernel stack trace you see at 12:07 is definitely an issue, but doesn't appear to be related to the http proxy at all.

    Given that this is new hardware, I have to wonder if it is flaky and possibly is suffering from bad RAM? Did you test the hardware using memtest or similar tools before installation?

    If it's not bad RAM, it appears to be a bug in the kernel that ships with 7.005.
  • You mean disabling the http proxy and IPS is the problem?


    No. When I disable both, the ASG runs fine. Today I started enabling one service again (IPS) and after approx 2,5h the ASG hung again with confd.plx using 100% CPU. After disabling it (which now worked, I could login to webadmin) and waiting 5 minutes, everything went back to normal...
  • No. When I disable both, the ASG runs fine.
    That's what I meant, clarified my original post.
    Today I started enabling one service again (IPS) and after approx 2,5h the ASG hung again with confd.plx using 100% CPU. After disabling it (which now worked, I could login to webadmin) and waiting 5 minutes, everything went back to normal...

    OK, so you've narrowed it down to IPS now so it's not the http proxy. Would be nice to try to figure out what network behavior if any is triggering the hang/sluggishness.

    We already know that BitTorrent will do a number on the IPS software.
  • That's what I meant, clarified my original post.

    OK, so you've narrowed it down to IPS now so it's not the http proxy. Would be nice to try to figure out what network behavior if any is triggering the hang/sluggishness.

    We already know that BitTorrent will do a number on the IPS software.

    actually it's not ips..it's the packet filter itself in my tests.  I can dos Astaro with BT even with ips turned off rather easily.

    Owner:  Emmanuel Technology Consulting

    http://etc-md.com

    Former Sophos SG(Astaro) advocate/researcher/Silver Partner

    PfSense w/Suricata, ntopng, 

    Other addons to follow

  • Since it hasn't been mentioned already and you did a RAM test, keep up on BIOS updates for your motherboard.  Sometimes those have little OS compatibility fixes in them as well.
    __________________
    ACE v8/SCA v9.3

    ...still have a v5 install disk in a box somewhere.

    http://xkcd.com
    http://www.tedgoff.com/mb
    http://www.projectcartoon.com/cartoon/1

  • We already know that BitTorrent will do a number on the IPS software.


    Tonight the ASG hang again. But without IPS or HTTP Proxu enabled. I have to investigate further whether my roommate turned on his Azureus client or not...

    I'll check the logs.
  • Hi guys,

    there was no bittorrent running at this time. Here is an excerpt of my kernel.log from the crash time [;)]

    2007:07:11-19:45:02 (none) kernel: kernel BUG at mm/rmap.c:560!
    
    2007:07:11-19:45:02 (none) kernel: invalid opcode: 0000 [#1]
    2007:07:11-19:45:02 (none) kernel: SMP 
    2007:07:11-19:45:02 (none) kernel: Modules linked in: nfnetlink_queue xt_condition iptable_ips ip_nat_ftp ip_conntrack_ftp ipt_MASQUERADE ipt_REDIRECT iptable_nat edd sr_mod ide_cd cdrom parpo
    rt_pc parport ppp_deflate zlib_deflate bsd_comp sha1 arc4 ppp_mppe ppp_async crc_ccitt ppp_generic slhc ipt_hashlimit xt_limit xt_conntrack ipt_esp xt_tcpudp ipt_psd ipt_addrtype ip_nat_mms ip
    _nat_pptp ip_nat_irc ebtable_nat ebtables iptable_mangle ip_conntrack_mms ip_conntrack_pptp ip_conntrack_irc tun crypto_null blowfish cast5 serpent twofish ipsec af_packet ipt_logmark ipt_CONF
    IRMED ipt_confirmed ipt_owner ipt_REJECT usb_storage evdev ehci_hcd uhci_hcd ohci_hcd xt_state xt_NOTRACK iptable_raw iptable_filter ip_conntrack_netlink ip_nat ipt_LOG ip_conntrack ip_tables 
    x_tables nfnetlink_log nfnetlink 3c59x mii forcedeth capability commoncap loop sg sata_nv libata sd_mod scsi_mod
    2007:07:11-19:45:02 (none) kernel: CPU:    1
    2007:07:11-19:45:02 (none) kernel: EIP:    0060:[]    Not tainted VLI
    2007:07:11-19:45:02 (none) kernel: EFLAGS: 00010286   (2.6.16.43-46-smp #1) 
    2007:07:11-19:45:02 (none) kernel: EIP is at page_remove_rmap+0x9e/0xb0
    2007:07:11-19:45:02 (none) kernel: eax: ffffffff   ebx: c1648020   ecx: 00000000   edx: 00000292
    2007:07:11-19:45:02 (none) kernel: esi: c1648020   edi: 082d6000   ebp: 00000020   esp: e2791d94
    2007:07:11-19:45:02 (none) kernel: ds: 007b   es: 007b   ss: 0068
    2007:07:11-19:45:02 (none) kernel: Process confd.plx (pid: 17645, threadinfo=e2790000 task=ed349550)
    2007:07:11-19:45:02 (none) kernel: Stack: c03329bd f2b9ff2c d8adfb58 c014b417 c1648020 082d6000 32401065 00000000 
    2007:07:11-19:45:02 (none) kernel: 00000001 08400000 de0a6080 f7c5cc80 c17cc940 fffffe68 ffffffff c1315bec 
    2007:07:11-19:45:02 (none) kernel: de0a6080 08e07fff 0018cfe4 08e08000 00000000 e2791e18 dbf78284 f7c5cc80 
    2007:07:11-19:45:02 (none) kernel: Call Trace:
    2007:07:11-19:45:02 (none) kernel: [] unmap_vmas+0x2a7/0x5a0
    2007:07:11-19:45:02 (none) kernel: [] exit_mmap+0x8f/0x120
    2007:07:11-19:45:02 (none) kernel: [] mmput+0x38/0xb0
    2007:07:11-19:45:02 (none) kernel: [] exit_mm+0xa8/0x140
    2007:07:11-19:45:02 (none) kernel: [] do_exit+0xd3/0x840
    2007:07:11-19:45:02 (none) kernel: [] __sigqueue_free+0x37/0x40
    2007:07:11-19:45:02 (none) kernel: [] do_group_exit+0x3c/0xa0
    2007:07:11-19:45:02 (none) kernel: [] get_signal_to_deliver+0x25f/0x4b0
    2007:07:11-19:45:02 (none) kernel: [] do_page_fault+0x0/0x640
    2007:07:11-19:45:02 (none) kernel: [] do_notify_resume+0xa7/0x730
    2007:07:11-19:45:02 (none) kernel: [] notifier_call_chain+0x34/0x40
    2007:07:11-19:45:02 (none) kernel: [] do_page_fault+0x10e/0x640
    2007:07:11-19:45:02 (none) kernel: [] do_page_fault+0x0/0x640
    2007:07:11-19:45:02 (none) kernel: [] work_notifysig+0x13/0x19
    2007:07:11-19:45:02 (none) kernel: Code: 24 a6 29 33 c0 83 c0 01 89 44 24 04 e8 fc bb fc ff 8b 43 10 c7 04 24 bd 29 33 c0 89 44 24 04 e8 e9 bb fc ff eb 83 8b 53 0c eb d0  0b 30 02 84 29 33
     c0 e9 79 ff ff ff 90 8d 74 26 00 83 ec 2c 
    2007:07:11-19:45:02 (none) kernel: Fixing recursive fault but reboot is needed!
    2007:07:11-19:45:03 (none) kernel: scheduling while atomic: confd.plx/0x00000001/17645
    2007:07:11-19:45:03 (none) kernel: [] schedule+0xa93/0xdd0
    2007:07:11-19:45:03 (none) kernel: [] net_rx_action+0x76/0x120
    2007:07:11-19:45:03 (none) kernel: [] apic_timer_interrupt+0x1c/0x24
    2007:07:11-19:45:03 (none) kernel: [] do_invalid_op+0xab/0xc0
    2007:07:11-19:45:03 (none) kernel: [] release_console_sem+0x1fb/0x210
    2007:07:11-19:45:03 (none) kernel: [] vprintk+0x28b/0x330
    2007:07:11-19:45:03 (none) kernel: [] release_pages+0x11f/0x190
    2007:07:11-19:45:03 (none) kernel: [] error_code+0x4f/0x54
    2007:07:11-19:45:03 (none) kernel: [] unmap_vmas+0x2a7/0x5a0
    2007:07:11-19:45:03 (none) kernel: [] exit_mmap+0x8f/0x120
    2007:07:11-19:45:03 (none) kernel: [] mmput+0x38/0xb0
    2007:07:11-19:45:03 (none) kernel: [] exit_mm+0xa8/0x140
    2007:07:11-19:45:03 (none) kernel: []  [] __sigqueue_free+0x37/0x40
    2007:07:11-19:45:03 (none) kernel: [] do_group_exit+0x3c/0xa0
    2007:07:11-19:45:03 (none) kernel: []  [] do_page_fault+0x0/0x640
    2007:07:11-19:45:03 (none) kernel: [] do_notify_resume+0xa7/0x730
    2007:07:11-19:45:03 (none) kernel: [] notifier_call_chain+0x34/0x40
    2007:07:11-19:45:03 (none) kernel: [] do_page_fault+0x0/0x640
    2007:07:11-19:45:03 (none) kernel: [] work_notifysig+0x13/0x19
  • I also changed my internal NIC now to a 3com since I read that the onboard nforce NIC is not really supported because the driver was heavily reverse engineered...
  • There is nothing wrong with a reverse engineered driver, but your computer is obviously suffering from some sort of kernel issue.

    Given that your most recent kernel bug is completely different than the original, I really have to suspect some sort of hardware issue or low level kernel/hardware issue.

    Can you try booting with the grub options "acpi=off noapic" and see if that helps?
  • I'm willing to bet it's the nforce chipset causing his issues.  Hopefully the noapic works..

    Owner:  Emmanuel Technology Consulting

    http://etc-md.com

    Former Sophos SG(Astaro) advocate/researcher/Silver Partner

    PfSense w/Suricata, ntopng, 

    Other addons to follow


  • Can you try booting with the grub options "acpi=off noapic" and see if that helps?


    How can I add this line permanently? When booting by editing the grub.conf? Will this last after a new reboot?
Reply Children
No Data