ubuntuusers.de

smartctl - Einige errors, wie interpretieren

Status: Ungelöst | Ubuntu-Version: Kubuntu 18.04 (Bionic Beaver)
Antworten |

binwiederda3

Anmeldungsdatum:
10. Dezember 2011

Beiträge: 108

Hallo, ich komme gerade vom Artikel Festplattenstatus

Meine Ausgabe von dem smartctl - Ausführlicher Test ergibt folgende Ausgabe:

=== START OF INFORMATION SECTION ===
Device Model:     C300-MTFDBAK128MAG
Serial Number:    00000000111403057C08
LU WWN Device Id: 5 00a075 103057c08
Firmware Version: 0006
User Capacity:    128,035,676,160 bytes [128 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 2.6, 3.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Jan  5 21:53:57 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (  595) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (   9) minutes.
Conveyance self-test routine
recommended polling time:        (   3) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       18985

SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 2

ATA Error Count: 0
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 0 occurred at disk power-on lifetime: 23111 hours (962 days + 23 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 20 a0 ed 2c 40  Error: ABRT at LBA = 0x002ceda0 = 2944416

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 20 a0 ed 2c 40 08  18d+11:27:01.376  WRITE FPDMA QUEUED
  e7 00 00 00 00 00 a0 08  18d+11:27:01.376  FLUSH CACHE
  61 00 08 e0 34 ce 40 08  18d+11:27:01.376  WRITE FPDMA QUEUED
  61 00 08 d0 34 ce 40 08  18d+11:27:01.376  WRITE FPDMA QUEUED
  61 00 08 48 34 ce 40 08  18d+11:27:01.376  WRITE FPDMA QUEUED

Error -1 occurred at disk power-on lifetime: 23106 hours (962 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 08 28 6e ab 40   at LBA = 0x00ab6e28 = 11234856

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 28 6e ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  e7 00 00 00 00 00 a0 08  18d+06:57:01.376  FLUSH CACHE
  61 00 08 40 72 24 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED
  61 00 08 e0 76 45 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED
  e7 00 00 00 00 00 a0 08  18d+06:57:01.376  FLUSH CACHE

Error -2 occurred at disk power-on lifetime: 23106 hours (962 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 08 28 6e ab 40   at LBA = 0x00ab6e28 = 11234856

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 28 6e ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  60 00 08 18 6e ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  60 00 08 d8 6d ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  e7 00 00 00 00 00 a0 08  18d+06:57:01.376  FLUSH CACHE
  61 00 08 10 6b 45 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED

Error -3 occurred at disk power-on lifetime: 23106 hours (962 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 00 28 6e ab 40   at LBA = 0x00ab6e28 = 11234856

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 60 6d ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  60 00 58 20 38 17 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  60 00 c8 88 60 ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  60 00 20 00 38 17 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  60 00 00 60 6c ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED

Error -4 occurred at disk power-on lifetime: 23106 hours (962 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 08 28 6e ab 40   at LBA = 0x00ab6e28 = 11234856

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 28 6e ab 40 08  18d+06:57:01.376  READ FPDMA QUEUED
  61 00 18 80 6c 01 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED
  61 00 a8 00 08 83 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED
  61 00 f8 40 18 83 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED
  61 00 98 a8 08 83 40 08  18d+06:57:01.376  WRITE FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     23125         -
# 2  Short offline       Completed without error       00%     23125         -
# 3  Short offline       Completed without error       00%     23116         -
# 4  Short offline       Completed without error       00%     23108         -
# 5  Extended offline    Completed: read failure       90%     22876         4488760
# 6  Short offline       Completed: read failure       90%     22876         4488760
# 7  Short offline       Completed: read failure       90%     22876         4488760
# 8  Short offline       Completed: read failure       90%     22876         4488760
# 9  Vendor (0xff)       Completed without error       00%     20260         -
#10  Vendor (0xff)       Completed without error       00%     16775         -
#11  Extended offline    Completed without error       00%     16758         -
#12  Vendor (0xff)       Completed without error       00%     14068         -
#13  Vendor (0xff)       Completed without error       00%     11767         -
#14  Vendor (0xff)       Completed without error       00%     11646         -
#15  Short offline       Completed without error       00%     11598         -
#16  Vendor (0xff)       Completed without error       00%     11523         -
#17  Vendor (0xff)       Completed without error       00%      8725         -
#18  Vendor (0xff)       Completed without error       00%      8719         -
#19  Vendor (0xff)       Completed without error       00%      8649         -
#20  Vendor (0xff)       Completed without error       00%      8625         -
#21  Vendor (0xff)       Completed without error       00%      8611         -
4 of 4 failed self-tests are outdated by newer successful extended offline self-test # 1

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Wie man sieht gibt es hier einige Errors und das "eigentliche" Ergebnis zeigt auch nur eine Zeile an, die des Power_Cycle_Count. Dazu muss ich sagen, dass meine SSD auch nicht in der smartctl database ist (obwohl schon recht alt - Crucial C300-MTFDBAK128MAG). Habe direkt dort mal ein Ticket erstellt. Kann man anhand der Ausgabe überhaupt etwas über den Zustand sagen? Wenn ich sage, dass die seit mindestens 5 Jahren jeden Tag mehrere Stunden im Betrieb ist,kann man sicherlich auch nicht mehr sagen, stimmts?

frickelhans

Avatar von frickelhans

Anmeldungsdatum:
9. Januar 2021

Beiträge: 42

Hallo, Die Statusinformationen sind in der tat ziemlich spärlich. Mal abgesehen davon, dass die SMART Werte nur begrenzt aussagekräftig sind, wenn man beurteilen möchte, ob es nötig ist, eine Festplatte zu ersetzen, ist hier kaum was zu holen.

Ich würde das auf jeden Fall beobachen, insbesondere, da es mal einen Lesefehler gab. So weit ich weiß, kann kann SMART auf HDDs zumindest relativ sicher herausfinden, dass die Platte in ein paar Stunden nicht mehr zu brauchen ist. Bei SSDs ist mir das nicht bekannt. Wenn die durch Abnutzungserscheinungen ausfallen, sollte sich dass durch Lesefehler äußern. Wenn sich etwas anderes verabschiedet... dann bekommt man typischerweise keine Warnung vorher.

Ich hätte gerne bessere Nachrichen, tut mir leid.

frickelhans

Avatar von frickelhans

Anmeldungsdatum:
9. Januar 2021

Beiträge: 42

Schau mal, ob der Hersteller deiner Festplatte dafür ein Tool anbietet. SMART ist nicht für SSDs gedacht (gewesen).

binwiederda3

(Themenstarter)

Anmeldungsdatum:
10. Dezember 2011

Beiträge: 108

frickelhans schrieb:

Schau mal, ob der Hersteller deiner Festplatte dafür ein Tool anbietet. SMART ist nicht für SSDs gedacht (gewesen).

Crucial (Der Hersteller) hat zwar ein Tool (Windows), unter den unterstützten Modellen ist meines aber nicht aufgeführt, auch wenn auf das Tool auf der Webseite zu meinem Modell hingewiesen wird.

Die Statusinformationen sind in der tat ziemlich spärlich. Mal abgesehen davon, dass die SMART Werte nur begrenzt aussagekräftig sind, wenn man beurteilen möchte, ob es nötig ist, eine Festplatte zu ersetzen, ist hier kaum was zu holen.

Ich würde das auf jeden Fall beobachen, insbesondere, da es mal einen Lesefehler gab. So weit ich weiß, kann kann SMART auf HDDs zumindest relativ sicher herausfinden, dass die Platte in ein paar Stunden nicht mehr zu brauchen ist. Bei SSDs ist mir das nicht bekannt. Wenn die durch Abnutzungserscheinungen ausfallen, sollte sich dass durch Lesefehler äußern. Wenn sich etwas anderes verabschiedet... dann bekommt man typischerweise keine Warnung vorher.

Erstmal danke für die Info. Mein Ticket zur smartctl database wurde auch mit "Adding this device won't change much as it reports only one attribute" kommentiert... Ich mache sowieso regelmäßig updates. Meine Frage nur bringt das etwas, bzw. kann es sein, dass eine Datei auf der SSD fehlerhaft ist/wird ich davon dann ein backup (2 externe Datenträger) mache und dann ist das backup auch fehlerhaft? Oder wird wenn der Kopiervorgang des Backups ausgelöst wird erkannt, dass die datei fehlerhaft ist und gar nicht erst ein backup davon erstellt?

frickelhans

Avatar von frickelhans

Anmeldungsdatum:
9. Januar 2021

Beiträge: 42

binwiederda3 schrieb:

Crucial (Der Hersteller) hat zwar ein Tool (Windows), unter den unterstützten Modellen ist meines aber nicht aufgeführt, auch wenn auf das Tool auf der Webseite zu meinem Modell hingewiesen wird.

Wenn du ein Windows System da hast, schau mal, ob die Software trotzdem funktioniert. Davon ist zwar nicht auszugehen, aber manchmal hat man Glück. Wenn nicht, dann würde ich mir die Arbeit auch nicht machen.

Mein Ticket zur smartctl database wurde auch mit "Adding this device won't change much as it reports only one attribute" kommentiert...

Das heißt im Prinzip, dass die Smart-Ausgaben deiner Platte vollständig sind, also dass die nicht mehr Daten ausgibt. Ich habe mal meine eigene SSD ausgelesen, da sieht das so aus:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
Model Number:                       INTEL SSDPEKNW512G8H
Serial Number:                      BTNH03220KUL512A
Firmware Version:                   HPS0
PCI Vendor/Subsystem ID:            0x8086
IEEE OUI Identifier:                0x5cd2e4
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          512.110.190.592 [512 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Tue Jan 19 12:09:50 2021 CET
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         32 Pages
Warning  Comp. Temp. Threshold:     77 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     3.50W       -        -    0  0  0  0        0       0
 1 +     2.70W       -        -    1  1  1  1        0       0
 2 +     2.00W       -        -    2  2  2  2        0       0
 3 -   0.0250W       -        -    3  3  3  3     5000    5000
 4 -   0.0040W       -        -    4  4  4  4     5000    9000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        36 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    496.221 [254 GB]
Data Units Written:                 612.155 [313 GB]
Host Read Commands:                 5.350.058
Host Write Commands:                6.239.839
Controller Busy Time:               123
Power Cycles:                       150
Power On Hours:                     96
Unsafe Shutdowns:                   11
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0

Error Information (NVMe Log 0x01, max 256 entries)
No Errors Logged

Ich sehe ein, dass das zur Lösung des Problems nicht wirklich hilfreich ist, aber zumindest ist es ein Vergleich.

Ich mache sowieso regelmäßig updates. Meine Frage nur bringt das etwas, bzw. kann es sein, dass eine Datei auf der SSD fehlerhaft ist/wird ich davon dann ein backup (2 externe Datenträger) mache und dann ist das Backup auch fehlerhaft?

SSD verschleißen nur beim Schreiben, nicht beim lesen (jedenfalls der Flash-speicher tut das nicht). Daher treten Probleme wenn überhaupt nur dass auf, wenn neue Dateien geschrieben werden. Du kannst iotop mal im Hintergrund laufen lassen und schauen, wie viel auf der Platte herumgeschrieben wird. Betrieb (ohne Schreibaktivität) macht einer SSD wenig aus, weil es keine beweglichen Teile gibt, die auch im Leerlauf verschließen.

Oder wird wenn der Kopiervorgang des Backups ausgelöst wird erkannt, dass die Datei fehlerhaft ist und gar nicht erst ein Backup davon erstellt?

Bei HDDs kommt es vor, dass man beim lesen sog. defekte Sektoren findet. Das wird im allgebeinen über SMART gemeldet, aber eben erst, wenn der Fehler erkannt ist. eine HDD sucht im allgemeinen nicht selbstständig nach solchen Problemen. Bei einer SSD hat man dieses Problem normalerweise nicht. Mir ist deshalb auch nicht klar, wie der LEsehehler in den Smart tests zustande kommt. Wenn eine Datei fehlerhaft ist, dass ist es in den seltensten Fällen ein kritischer Fehler: Angenommen es gibt 100GB Daten auf der Platte. um ein startendes system zu haben, würde ich maximal ein GB rechnen (Die Arch linux installationscd hat 723 MB). Üblicherweise trifft es also irgendeine Mediendatei und das fällt meistens nicht mal auf. Natürlich sind regelmäßige Backups immer empfehlenswert. Allerdings muss es nicht aiimer das ganze system sein. Den Meisten reichen die Persönlichen Daten, die man üblicherweise unter /home findet. Wenn du sonst noch Wichtige Datenbestände hast, weißt du das am besten selber. Ich bin der Meinung, dass es sich nicht lohnt, den Rest des Betriebssystems zu sichern, wenn man weniger zeit braucht, um es neu zu installieren, als um es regelmäßig zu sichern. Wenn du natürlich ein äußerst komplexe Konfiguration für irgendwas hast, könnte sich das schon löhnen.

Wenn du ein Bakcup machst (normales kopieren der Dateien) kannst du üblicherweise einstellen, was bei nicht lesbaren oder defekten Dateien passieren soll. Typisch werden die Dateien entweder übersprungen oder der Vorgang abgebrochen.

binwiederda3

(Themenstarter)

Anmeldungsdatum:
10. Dezember 2011

Beiträge: 108

Ok, vielen Dank für die ausführliche Antwort!

Wenn ich das richtig verstehe, ist es nur problematisch wenn ich eine Datei verändere (Schreibvorgang), dabei die SSD einen Schaden davon trägt und ich ein Backup machen will, weil alle Änderung seit des letzten Backups dann verloren sind.

Ich hatte schon mal einen Fehler bei meinem Backup mehrerer Dateien, zum Glück waren es weniger wichtige und seit dem letzten Backup hat sich sicherlich wenig bei diesen Dateien getan. Mittlerweile wurde die SSD aber schon ein paar mal wieder formatiert und das aktuelle Backup auf die SSD gespielt. Der Lesefehler meiner smartctl Ausgabe und dieses Problem in der Vergangenheit, dass ich schon fast vergessen hatte, lässt mich darauf schließen, dass die SSD nicht mehr so ganz fit ist.

Da auf der SSD sehr wichtige Daten liegen, schließe ich jetzt daraus. Entweder muss eine neue SSD her oder ich mache Backups speziell der wichtigen Dateien öfter (also eher täglich). Ein Programm wie Syncthing würde doch backups bei jeder Änderung einzelner Dateien im Hintergrund durchführen sofern die Verbindung zu meiner externen Festplatte steht durchführen, oder? Das wäre dann doch glaube ich die eleganteste Lösung und ich müsste die SSD noch nicht entsorgen und würde die Umwelt noch ein bisschen schonen 🤓

frickelhans

Avatar von frickelhans

Anmeldungsdatum:
9. Januar 2021

Beiträge: 42

Meines Wissens ist Syncthing für die Synchronisierung von Daten zwischen 2 (oder mehr) Computern gedacht und macht außerdem keine Versionierung. Wenn diese sehr wichtigen Dateien versehentlich oder absichtlich gelöscht oder überschieben werden, ist dann auch deine Synchronisierte Datei weg, bzw. kaputt. Natürlich hilft es, wenn es irgendwann einen "Knall" gibt und die Platte komplett kaputt ist. Für Informationen zu Bakups kann ich Datensicherung empfehlen.

Ansonsten ist es bei SSDs Wichtig, wie das Backup durückgespielt wird. SSDs nutzen normalerweise den freien Speicher, um die möglichen Schreibvorgänge möglichst gleichmäßig auszunutzen (Wear-Leveling) DAs kann sie nicht, wenn man die Daten (z.B. von einer HDD) blockweise kopiert, weil dann der ganze freie Speicher erst mal mit Daten beschrieben wird. Das sind zwar keine nutzbaren daten, aber das kann die SSD ja nicht wissen, weil sie keine Dateisysteme kennt. Hier https://wiki.ubuntuusers.de/SSD/ gibt es weitere Informationen dazu, wie man vorgehen soll.

Antworten |