Guest User!

You are not Sophos Staff.

This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

SSD of UTM disappears after some time

Hi,

I've a problem with my UTM (9.315-2) and the SSD. The SSD disappears after some time. I think it happens when the UTM has nothing to do and the SSD goes into idle mode or something else.

It begins with the following messages in the kernel log:

2015:08:10-05:52:28 UTM_NAME kernel: [ 6544.808227] ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
2015:08:10-05:52:28 UTM_NAME kernel: [ 6544.808235] ata1: irq_stat 0x00400040, connection status changed
2015:08:10-05:52:28 UTM_NAME kernel: [ 6544.808242] ata1: SError: { PHYRdyChg 10B8B DevExch }
2015:08:10-05:52:28 UTM_NAME kernel: [ 6544.808254] ata1: hard resetting link
2015:08:10-05:52:29 UTM_NAME kernel: [ 6545.530328] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
2015:08:10-05:52:29 UTM_NAME kernel: [ 6545.550283] ata1.00: configured for UDMA/133
2015:08:10-05:52:29 UTM_NAME kernel: [ 6545.550309] ata1: EH complete


These errors occures several times, in irregular time periods (e.g. one minute or one day), before the system loses the SSD completly. At the point where the SSD gets lost, the Kernel log shows only two rows of rhombus with a question mark in it.
Then, sometimes the UTM restarts and hang in the UEFI boot because it can't find any bootable devices. And sometimes it shows the normal screen with the login prompt. As soon as I type in the admin user and press enter, the screen shows a "Kernel panic" message and reboots, and hang also in the UEFI boot because of missing bootable devices.
I must disconnect and reconnect the power cable to boot up normaly.

Mainboard: Gigabyte GA-J1900N-D3V
SSD: 60GB Kingston SSD Now V300 2.5" SATA 6Gb/s MLC asynchron (SV300S37A/60G)
AHCI mode is enabled

I've already updated the UEFI and the firmware of the SSD, but it didn't helped.

The Internet says that this error occures some times ago in different Linux distribution because of an idle mode. But they say it should be fixed now.

Has anyone an idea how to solve this issue? 
Thank you in advance.

Jas Man


This thread was automatically locked due to age.
Parents
  • SSD health results by smartctl

    UTM:/root # grep -o '$Id.*\$' drivedb.h
    $Id: drivedb.h 4112 2015-07-01 19:44:20Z chrfranke $

    UTM:/root # smartctl -B drivedb.h -a /dev/sda
    smartctl 6.0 2012-10-10 r3643 [x86_64-linux-3.12.40-0.201737330.g7df7cae.rb1-smp64] (SUSE RPM)
    Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF INFORMATION SECTION ===
    Model Family:     SandForce Driven SSDs
    Device Model:     KINGSTON SV300S37A60G
    Serial Number:    50026B77520922C3
    LU WWN Device Id: 5 0026b7 7520922c3
    Firmware Version: 603ABBF0
    User Capacity:    60,022,480,896 bytes [60.0 GB]
    Sector Size:      512 bytes logical/physical
    Rotation Rate:    Solid State Device
    Device is:        In smartctl database [for details use: -P show]
    ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
    SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
    Local Time is:    Mon Aug 10 22:33:47 2015 CEST
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled

    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED

    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                (    0) seconds.
    Offline data collection
    capabilities:                    (0x7d) SMART execute Offline immediate.
                                            No Auto Offline data collection support.
                                            Abort Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   1) minutes.
    Extended self-test routine
    recommended polling time:        (  48) minutes.
    Conveyance self-test routine
    recommended polling time:        (   2) minutes.
    SCT capabilities:              (0x0025) SCT Status supported.
                                            SCT Data Table supported.

    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x0032   120   120   050    Old_age   Always       -       0/0
      5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
      9 Power_On_Hours_and_Msec 0x0032   098   098   000    Old_age   Always       -       2233h+27m+54.210s
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       95
    171 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
    172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
    174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       56
    177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       99
    181 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
    182 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
    189 Airflow_Temperature_Cel 0x0000   037   055   000    Old_age   Offline      -       37 (Min/Max 19/55)
    194 Temperature_Celsius     0x0022   037   055   000    Old_age   Always       -       37 (Min/Max 19/55)
    195 ECC_Uncorr_Error_Count  0x001c   120   120   000    Old_age   Offline      -       0/0
    196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
    201 Unc_Soft_Read_Err_Rate  0x001c   120   120   000    Old_age   Offline      -       0/0
    204 Soft_ECC_Correct_Rate   0x001c   120   120   000    Old_age   Offline      -       0/0
    230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
    231 SSD_Life_Left           0x0013   096   096   010    Pre-fail  Always       -       1
    233 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       1588
    234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       857
    241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       857
    242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       102

    SMART Error Log not supported

    SMART Self-test log structure revision number 1
    No self-tests have been logged.  [To run self-tests, use: smartctl -t]


    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
Reply
  • SSD health results by smartctl

    UTM:/root # grep -o '$Id.*\$' drivedb.h
    $Id: drivedb.h 4112 2015-07-01 19:44:20Z chrfranke $

    UTM:/root # smartctl -B drivedb.h -a /dev/sda
    smartctl 6.0 2012-10-10 r3643 [x86_64-linux-3.12.40-0.201737330.g7df7cae.rb1-smp64] (SUSE RPM)
    Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF INFORMATION SECTION ===
    Model Family:     SandForce Driven SSDs
    Device Model:     KINGSTON SV300S37A60G
    Serial Number:    50026B77520922C3
    LU WWN Device Id: 5 0026b7 7520922c3
    Firmware Version: 603ABBF0
    User Capacity:    60,022,480,896 bytes [60.0 GB]
    Sector Size:      512 bytes logical/physical
    Rotation Rate:    Solid State Device
    Device is:        In smartctl database [for details use: -P show]
    ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
    SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
    Local Time is:    Mon Aug 10 22:33:47 2015 CEST
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled

    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED

    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                (    0) seconds.
    Offline data collection
    capabilities:                    (0x7d) SMART execute Offline immediate.
                                            No Auto Offline data collection support.
                                            Abort Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   1) minutes.
    Extended self-test routine
    recommended polling time:        (  48) minutes.
    Conveyance self-test routine
    recommended polling time:        (   2) minutes.
    SCT capabilities:              (0x0025) SCT Status supported.
                                            SCT Data Table supported.

    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x0032   120   120   050    Old_age   Always       -       0/0
      5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
      9 Power_On_Hours_and_Msec 0x0032   098   098   000    Old_age   Always       -       2233h+27m+54.210s
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       95
    171 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
    172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
    174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       56
    177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       99
    181 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
    182 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
    189 Airflow_Temperature_Cel 0x0000   037   055   000    Old_age   Offline      -       37 (Min/Max 19/55)
    194 Temperature_Celsius     0x0022   037   055   000    Old_age   Always       -       37 (Min/Max 19/55)
    195 ECC_Uncorr_Error_Count  0x001c   120   120   000    Old_age   Offline      -       0/0
    196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
    201 Unc_Soft_Read_Err_Rate  0x001c   120   120   000    Old_age   Offline      -       0/0
    204 Soft_ECC_Correct_Rate   0x001c   120   120   000    Old_age   Offline      -       0/0
    230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
    231 SSD_Life_Left           0x0013   096   096   010    Pre-fail  Always       -       1
    233 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       1588
    234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       857
    241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       857
    242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       102

    SMART Error Log not supported

    SMART Self-test log structure revision number 1
    No self-tests have been logged.  [To run self-tests, use: smartctl -t]


    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
Children
  • I read a lot about similar issues and most of them are caused by the NCQ feature of the SSD.

    I try to disable NCQ on the UTM with 

    echo 1 > /sys/block/sda/device/queue_depth

    and

    hdparm -Q1 /dev/sda

    but after a reboot the default value of 31 is set again.
    Has anyone any idea how to disable this feature?