This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

UTM 9.204 Intel E1000e NIC crash

Just upgraded to 9.204 and I still have Intel E1000e NIC crashs. PLEAZE SOPHOS - fix this now asap...

After manuel set "ethtool -K eth1 gso off gro off" normal operation can be obtained, but this it gone when rebooting [:@]

2014:07:11-20:28:20 fw kernel: [ 6621.930212] next_to_watch 

2014:07:11-20:28:20 fw kernel: [ 6621.930212] jiffies 
2014:07:11-20:28:20 fw kernel: [ 6621.930212] next_to_watch.status 
2014:07:11-20:28:20 fw kernel: [ 6621.930212] MAC Status 
2014:07:11-20:28:20 fw kernel: [ 6621.930212] PHY Status 
2014:07:11-20:28:20 fw kernel: [ 6621.930212] PHY 1000BASE-T Status 
2014:07:11-20:28:20 fw kernel: [ 6621.930212] PHY Extended Status 
2014:07:11-20:28:20 fw kernel: [ 6621.930212] PCI Status 
2014:07:11-20:28:20 fw kernel: [ 6621.937388] e1000e 0000:00:19.0 eth1: Reset adapter unexpectedly
2014:07:11-20:28:23 fw kernel: [ 6625.762700] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
2014:07:11-20:32:06 fw kernel: [ 6847.695940] e1000e 0000:00:19.0 eth1: Detected Hardware Unit Hang:
2014:07:11-20:32:06 fw kernel: [ 6847.695940] TDH 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] TDT 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] next_to_use 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] next_to_clean 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] buffer_info[next_to_clean]:
2014:07:11-20:32:06 fw kernel: [ 6847.695940] time_stamp 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] next_to_watch 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] jiffies 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] next_to_watch.status 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] MAC Status 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] PHY Status 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] PHY 1000BASE-T Status 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] PHY Extended Status 
2014:07:11-20:32:06 fw kernel: [ 6847.695940] PCI Status 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] e1000e 0000:00:19.0 eth1: Detected Hardware Unit Hang:
2014:07:11-20:32:08 fw kernel: [ 6849.693885] TDH 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] TDT 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] next_to_use 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] next_to_clean 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] buffer_info[next_to_clean]:
2014:07:11-20:32:08 fw kernel: [ 6849.693885] time_stamp 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] next_to_watch 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] jiffies 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] next_to_watch.status 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] MAC Status 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] PHY Status 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] PHY 1000BASE-T Status 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] PHY Extended Status 
2014:07:11-20:32:08 fw kernel: [ 6849.693885] PCI Status 
2014:07:11-20:32:09 fw kernel: [ 6850.691975] e1000e 0000:00:19.0 eth1: Reset adapter unexpectedly
2014:07:11-20:32:12 fw kernel: [ 6854.449265] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
2014:07:11-20:33:27 fw kernel: [ 6928.600113] e1000e 0000:00:19.0 eth1: Detected Hardware Unit Hang:
2014:07:11-20:33:27 fw kernel: [ 6928.600113] TDH 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] TDT 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] next_to_use 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] next_to_clean 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] buffer_info[next_to_clean]:
2014:07:11-20:33:27 fw kernel: [ 6928.600113] time_stamp 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] next_to_watch 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] jiffies 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] next_to_watch.status 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] MAC Status 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] PHY Status 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] PHY 1000BASE-T Status 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] PHY Extended Status 
2014:07:11-20:33:27 fw kernel: [ 6928.600113] PCI Status 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] e1000e 0000:00:19.0 eth1: Detected Hardware Unit Hang:
2014:07:11-20:33:29 fw kernel: [ 6930.598052] TDH 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] TDT 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] next_to_use 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] next_to_clean 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] buffer_info[next_to_clean]:
2014:07:11-20:33:29 fw kernel: [ 6930.598052] time_stamp 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] next_to_watch 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] jiffies 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] next_to_watch.status 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] MAC Status 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] PHY Status 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] PHY 1000BASE-T Status 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] PHY Extended Status 
2014:07:11-20:33:29 fw kernel: [ 6930.598052] PCI Status 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] e1000e 0000:00:19.0 eth1: Detected Hardware Unit Hang:
2014:07:11-20:33:31 fw kernel: [ 6932.595992] TDH 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] TDT 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] next_to_use 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] next_to_clean 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] buffer_info[next_to_clean]:
2014:07:11-20:33:31 fw kernel: [ 6932.595992] time_stamp 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] next_to_watch 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] jiffies 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] next_to_watch.status 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] MAC Status 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] PHY Status 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] PHY 1000BASE-T Status 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] PHY Extended Status 
2014:07:11-20:33:31 fw kernel: [ 6932.595992] PCI Status 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] e1000e 0000:00:19.0 eth1: Detected Hardware Unit Hang:
2014:07:11-20:33:33 fw kernel: [ 6934.593959] TDH 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] TDT 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] next_to_use 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] next_to_clean 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] buffer_info[next_to_clean]:
2014:07:11-20:33:33 fw kernel: [ 6934.593959] time_stamp 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] next_to_watch 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] jiffies 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] next_to_watch.status 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] MAC Status 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] PHY Status 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] PHY 1000BASE-T Status 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] PHY Extended Status 
2014:07:11-20:33:33 fw kernel: [ 6934.593959] PCI Status 
2014:07:11-20:33:33 fw kernel: [ 6934.604903] e1000e 0000:00:19.0 eth1: Reset adapter unexpectedly
2014:07:11-20:33:36 fw kernel: [ 6938.414254] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx


This thread was automatically locked due to age.
  • This bug has kept me from upgrading my 2 Intel firewalls to 9.2

    Barry
  • It seems Sophos don't give use feedback about this critical bug in about ~5 threads now.
  • Wondering why this hasn't been fixed.
  • Think about this, is it a core sophos issue, no, does it affect sophos hardware no.
    What does it affect people, using UTM in a vmware that is what e1000 is?
    I haven't seen this issues on any of my hardware devices for awhile. I have 3 running different version of intel NICs.

    This might seem like a silly question, but why would you run a security device in a VM other than a test setup, why expose another layer of network software to the internet for attack? In VMwares case that would make two firewalls in series. Hyper-V, I prefer not to discuss that setups weaknesses.

    Please update my thinking.

    Ian
  • Think about this, is it a core sophos issue, no, does it affect sophos hardware no.
    What does it affect people, using UTM in a vmware that is what e1000 is?
    I haven't seen this issues on any of my hardware devices for awhile. I have 3 running different version of intel NICs.

    This might seem like a silly question, but why would you run a security device in a VM other than a test setup, why expose another layer of network software to the internet for attack? In VMwares case that would make two firewalls in series. Hyper-V, I prefer not to discuss that setups weaknesses.

    Please update my thinking.

    Ian


    Ian

    We are not on VMware! Intel 82579 Is the E1000 chipset on my fysical server.

    // Martin

    Sent from my iPad using Astaro.org
  • I'm surprised they haven't fixed this.


    I tried two different model Intel NICS and both suffered from the crashes.


    Had to revert back to 9.1, again.
  • I am running 3 utms with different intel nics on two of them and not seeing any errors at all in the kernel logs at restarts or upgrades.

    I did see a number of these during the beta testing and reported on them. Since then all my UTMs have been rebuilt using later ISOs and upgraded using up2date packages.

    I haven't made the changes using the cmdline as Martin has. I have maybe wrongly assumed the commands were part of the install package as a patch until a new driver was released?

    Are you seeing these errors on production machines or just home use? If production have you logged a tickets and can quote that ticket here?

    Ian
  • Hi Ian,

    It only affects certain Intel NIC models, and only seems to happen under heavy traffic load.

    The command-line workaround has not been incorporated into the startup scripts afaik.

    My production machines have Broadcom NICs so I haven't opened a case, but Martin, myself, and at least one reseller have brought this up during the beta and in the 9.1x series.
    I helped test some new kernels and some workarounds during the beta, fwiw.

    It was fixed in 9.1x but has not been fixed in 9.2x.

    Barry
  • Think about this, is it a core sophos issue, no, does it affect sophos hardware no.
    What does it affect people, using UTM in a vmware that is what e1000 is?
    I haven't seen this issues on any of my hardware devices for awhile. I have 3 running different version of intel NICs.

    This might seem like a silly question, but why would you run a security device in a VM other than a test setup, why expose another layer of network software to the internet for attack? In VMwares case that would make two firewalls in series. Hyper-V, I prefer not to discuss that setups weaknesses.

    Please update my thinking.

    Ian

    There are several advantages to vm operations:

    Better control over system configuration
    hardware independence
    backups are easier(jsut backup the vm image)
    migration to new hardware doesn't require a re-install
    the need for firewall HA is greatly reduced..you can do this at the hypervisor level.
    Lower costs of operation and ownership(aka one less physical box to deal with)
    Security is NOT decreased if properly configured at the hypervisor level(this one is EASY to screw up)
    More as i come up with it.

    I can give you a prime example.  My last host server(which has my AD/dhcp/dns/file/print 2008 R@ Enterprise VM, My ASG vm, my SUM vm, and my clients data backup VM on it) started having large amount of ECC memory errors.  I figured out the ram was ok the motherbaord itself was dying.  Luckily I had all of the vm images backed up daily to my external hdd.  I made a manual backup..yanked out the old dead host..installed my new host.  Installed my server 2008 R2 Enterprise host software..restored my host configuration backup..then restored all of the vm's.  2 hours and one reboot later it was as if nothing had happened and ALL of my core network was back online oblivious to the fact it was on different host hardware. Easiest server replacement i've ever done..[:)]
  • Hi Barry,
    thank you, I am well aware that it is only certain NICs and I have two utms running that chip, sadly the network on one would never strain anything, but the other one runs up to the external interface at 90mb/s for sustained downloads and doesn't throw up any errors.

    William, I am well aware of the advantages and dis-advantages of VMs, I support them at work and at home. I also see a considerable risk of deploying another layer of security software in front of the UTM.

    Ian