This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Random Reboots and Freezes on 9.106-17

Hi guys.  I've been seeing random restarts once or twice a day for a couple weeks now.  I can't put my finger on what has changed.  Tonight I came home and found Internet down, and when I looked at the ASG, there was a Sophos Logo, and a screen full of mostly hex codes (screen shot attached).  

I've looked at logs, but don't see anything too interesting... but I don't really know which logs I should be looking at, and for what.

A push in the right direction would be greatly appreciated!

- Scott


This thread was automatically locked due to age.
  • It froze again tonight, and this time I caught an error that may give me a clue as to these crashes.  The screen showed something like:

    [ 5977.896448] BUG: unable to hand e kernel paginglrequest at ffff 8013f200004  9
    [ 5977.898767] IP: [,ffffffffa01b9bfb>] _____nf_conntrack_find+0x96/0xf9 [uf_conntrack]
  • Hi, might be a hardware problem... check the fans, and try running MemTest86 (available from the Astaro CD and/or Grub prompt, iirc)

    Barry
  • I agree with Barry - it is probably a hardware issue, possibly RAM. Have you added any hardware lately?
  • Hi guys.  I have not changed any hardware.  This Dell Optiplex 745 has been happily providing Astaro services for a good year or more, with absolutely no changes (not even moving it), other than regular software updates. 

    I swapped out the RAM last night with pre-tested memory and a few hours later it restarted... so it's not a memory issue.  

    Next, I'm going to rebuild a brand new box (I have another spare Dell Optiplex 745) and import my existing config, and see what happens.

    - Scott
  • Before I had a chance to put the new box in, the old box crashed again.  Not sure if these error messages are useful, but this time it says:

    [108536.392605] BUG: unable to handle kernel NULL pointer dereference[108536.392773] confd.p
  • What type of network interfaces are installed on this machine? Also, did this start after you upgraded to 9.106-17 or have you been running that image for a while?
  • Astaro has been very stable for me and I admit I have not done a good job of documenting changes... thus I can't specifically state that this issue started after an upgrade or config change.  I will be sure to document these events much better in the future!

    I know for sure that these problems have only happened on 9.106-17, and not on any prior version.  But did they start right after upgrading?  My gut feeling says NO but I could be wrong.

    lspci says I have the following NICs (I have dual DSL lines, thus 3 total NICs):

    03:00.0 Ethernet controller: Broadcom Corporation NetXtreme BCM5754 Gigabit Ethernet PCI Express (rev 02)
    04:00.0 Ethernet controller: D-Link System Inc RTL8139 Ethernet (rev 10)
    04:02.0 Ethernet controller: D-Link System Inc RTL8139 Ethernet (rev 10)

    The first NIC is the interface built into the Dell Optiplex 745.  The other two are add-in PCI cards (which are on the ASG HCL list as tested/supported)

    I hope to have a new Astaro box built by end of the week, and I will install the same image and export/import the same config... this will tell us if it was the hardware or not.

    Thanks!!

    - Scott
  • Scott, since the system crashed and you got an error that's not been seen here in years, I would suspect RAM or other hardware problem.  It just doesn't feel like a problem that could be solved by re-installing from ISO.

    Cheers - Bob
  • Hi Bob.  OK, glad I am on the right track to build a brand new server with brand new hardware.  That will eliminate the question of hardware.  I'll keep you posted!

    - Scott
  • Scott,

    Thanks for the feedback on the controllers.I have been doing some testing with some different controllers lately and have had some problems with some of them working properly and I am running the same OS version as you are. I have not had a machine completely die from that like your does, but I have had some strange issues nonetheless. I really think that your issue is somehow hardware/driver related - let us know what happens when you get your new system built.