ubuntuusers.de

Raid 5 Recovery dauert 2 1/2 Jahre.

Status: Gelöst | Ubuntu-Version: Ubuntu 16.04 (Xenial Xerus)
Antworten |

Y05H10

Anmeldungsdatum:
5. Oktober 2016

Beiträge: 9

Hallo Zusammen,

Ich habe hier ein Raid 5 mit 4x 3TB Platten. (WDRed)

Nun wurde bei einem Start offensichtlich eine von den Festplatten rausgeworfen. Das ist mir auch erst heute Aufgefallen (obwohl es schon länger so ist?) Ich habe bisher noch keine E-Mail oder sonstiges dafür eingerichtet. Selbst schuld.

Jedenfalls habe ich besagte Festplatte /dev/sdc überprüft. smartctl -a sagt passed.

mdadm --examine auf Event gibt mir

1
2
3
4
5
6
7
8
/dev/sdb1:
         Events : 693345
/dev/sdc1:
         Events : 693346
/dev/sdd1:
         Events : 693347
/dev/sde1:
         Events : 693347

Also habe ich kurzerhand ein sudo mdadm --manage /dev/md0 --remove /dev/sdc1 und danach ein sudo mdadm --re-add /dev/md0 /dev/sdc1

gemacht. Soweit so gut.

Das ist der output von cat /proc/mdstat

1
2
3
4
5
6
7
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid5 sdc1[1] sde1[4] sdd1[2] sdb1[0]
      8790389760 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [U_UU]
      [>....................]  recovery =  0.0% (39496/2930129920) finish=1341276.4min speed=36K/sec
      bitmap: 10/22 pages [40KB], 65536KB chunk

unused devices: <none>

Momentan steht er auf etwa 930 Tagen, die er für die Recovery Benötigt. Der Speed ist auch absolut niedrig. Was mache ich da falsch?

hier noch sudo mdadm --detail /dev/md0 Dort stellt sich mir die Frage ob es überhaupt richtig ist das es "spare rebuilding" heißt. Baut der Gerade an der Parity wie es sein sollte oder spricht mdadm hier von einer ersatz platte die nur einsetzt wenn eine andere ausfällt?

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
/dev/md0:
        Version : 1.2
  Creation Time : Mon Sep 26 22:56:49 2016
     Raid Level : raid5
     Array Size : 8790389760 (8383.17 GiB 9001.36 GB)
  Used Dev Size : 2930129920 (2794.39 GiB 3000.45 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Thu Nov  3 01:49:03 2016
          State : clean, degraded, recovering
 Active Devices : 3
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

 Rebuild Status : 0% complete

           Name : server:0  (local to host server)
           UUID : 46609eeb:d609d4ce:930a26d7:768f7717
         Events : 693388

    Number   Major   Minor   RaidDevice State
       0       8       17        0      active sync   /dev/sdb1
       1       8       33        1      spare rebuilding   /dev/sdc1
       2       8       49        2      active sync   /dev/sdd1
       4       8       65        3      active sync   /dev/sde1

Das Ganze ist natürlich unmounted. Vielen Dank für die Hilfe

misterunknown Team-Icon

Ehemalige
Avatar von misterunknown

Anmeldungsdatum:
28. Oktober 2009

Beiträge: 4403

Wohnort: Sachsen

Y05H10 schrieb:

Jedenfalls habe ich besagte Festplatte /dev/sdc überprüft. smartctl -a sagt passed.

Nun, "passed" muss nicht zwingend bedeuten, das alles gut ist. Wie sehen denn die Werte der Platte aus?

Das ist der output von cat /proc/mdstat

1
      [>....................]  recovery =  0.0% (39496/2930129920) finish=1341276.4min [mark]speed=36K/sec[/mark]

Also bei dem Speed würde ich davon ausgehen, dass die Platte einen Treffer hat.

Dort stellt sich mir die Frage ob es überhaupt richtig ist das es "spare rebuilding" heißt. Baut der Gerade an der Parity wie es sein sollte oder spricht mdadm hier von einer ersatz platte die nur einsetzt wenn eine andere ausfällt?

"Spare rebuilding" heißt einfach, dass eine Platte, die zum RAID gehört, und bisher keine Funktion hatte, nun mit Daten befüllt wird. Das ist auch so, wenn du sie gerade erst dazugenommen hast.

frostschutz

Avatar von frostschutz

Anmeldungsdatum:
18. November 2010

Beiträge: 7790

Schalt apparmor und so Krempel ab, benutze ggf. aktuellere Kernel / Rettungssystem (SystemRescueCD), evtl. Stripe Cache hochdrehen http://www.cyberciti.biz/tips/linux-raid-increase-resync-rebuild-speed.html

Zeige bitte vollständige Ausgaben von mdadm --examine, smartctl -a, parted /dev/disk unit s print free für alles.

SMART Selbsttest (smartctl -t long), falls noch nie gemacht.

Schau ob dmesg irgendwas hat.

Y05H10

(Themenstarter)

Anmeldungsdatum:
5. Oktober 2016

Beiträge: 9

Update : Die Recovery hat nach etwa einer stunde einen sprung auf 6.7% gemacht. Etwas später stand sie dann auf (F). Also wird sie kaputt sein?

mdadm --examine /dev/sdc1

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
/dev/sdc1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x8b
     Array UUID : 46609eeb:d609d4ce:930a26d7:768f7717
           Name : server:0  (local to host server)
  Creation Time : Mon Sep 26 22:56:49 2016
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 5860260785 (2794.39 GiB 3000.45 GB)
     Array Size : 8790389760 (8383.17 GiB 9001.36 GB)
  Used Dev Size : 5860259840 (2794.39 GiB 3000.45 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
Recovery Offset : 395873592 sectors
   Unused Space : before=262056 sectors, after=945 sectors
          State : clean
    Device UUID : 7d84c0da:b4012ed5:c347f2fe:12b6a824

Internal Bitmap : 8 sectors from superblock
    Update Time : Thu Nov  3 02:38:20 2016
  Bad Block Log : 512 entries available at offset 72 sectors - bad blocks presen           t.
       Checksum : 4e7df3b5 - correct
         Events : 693620

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 1
   Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

smartctl -a /dev/sdc

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-45-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD30EFRX-68EUZN0
Serial Number:    WD-WMC4N0H34X21
LU WWN Device Id: 5 0014ee 65a92ad5c
Firmware Version: 82.00A82
User Capacity:    3.000.592.982.016 bytes [3,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Nov  3 20:43:01 2016 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (39240) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 394) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   184   175   021    Pre-fail  Always       -       5800
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       240
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   084   084   000    Old_age   Always       -       11717
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       240
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   194   194   000    Old_age   Always       -       19493
194 Temperature_Celsius     0x0022   118   099   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
ATA Error Count: 146 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 146 occurred at disk power-on lifetime: 11699 hours (487 days + 11 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 00 08 00 e0  Error: UNC 8 sectors at LBA = 0x00000800 = 2048

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 00 08 00 e0 08  21d+06:36:40.071  READ DMA
  ec 00 00 00 00 00 a0 08  21d+06:36:40.069  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 08  21d+06:36:40.069  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 08  21d+06:36:40.069  IDENTIFY DEVICE

Error 145 occurred at disk power-on lifetime: 11642 hours (485 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 10 0c 42 eb  Error: IDNF at LBA = 0x0b420c10 = 188877840

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 00 10 0c 42 eb 08  18d+21:20:47.464  WRITE DMA

Error 144 occurred at disk power-on lifetime: 11642 hours (485 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 48 c8 f6 41 eb  Error: IDNF at LBA = 0x0b41f6c8 = 188872392

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 48 c8 f6 41 eb 08  18d+21:20:35.559  WRITE DMA

Error 143 occurred at disk power-on lifetime: 11641 hours (485 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 b8 c5 3e eb  Error: IDNF at LBA = 0x0b3ec5b8 = 188663224

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 00 b8 c5 3e eb 08  18d+21:13:11.919  WRITE DMA

Error 142 occurred at disk power-on lifetime: 11641 hours (485 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 80 90 41 17 eb  Error: IDNF at LBA = 0x0b174190 = 186073488

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 80 90 41 17 eb 08  18d+20:26:53.303  WRITE DMA

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

parted /dev/sdc unit s print free

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
Model: ATA WDC WD30EFRX-68E (scsi)
Disk /dev/sdc: 5860533168s
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start        End          Size         File system  Name     Flags
        34s          2047s        2014s        Free Space
 1      2048s        5860524976s  5860522929s               primary  raid
        5860524977s  5860533134s  8158s        Free Space

+++ ich habe vorhin , um die Platten zu testen, einen reboot durchgeführt und habe dabei wohl meine mdadm configuration kaputt gemacht? Jetzt ist /dev/md0 angeblich ein Raid0 mit 4 Members Ein Examine auf die einzelnen Members sagt mir das sie weiterhin Raid5-Member sind.

Außerdem habe ich bereits eine Ersatzplatte bestellt für /dev/sdc. Für den fall das sie nicht Kaputt ist werde ich sie als Spare einbinden.

mdadm --detail /dev/md0

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
/dev/md0:
        Version : 1.2
     Raid Level : raid0
  Total Devices : 4
    Persistence : Superblock is persistent

          State : inactive

           Name : server:0  (local to host server)
           UUID : 46609eeb:d609d4ce:930a26d7:768f7717
         Events : 693971

    Number   Major   Minor   RaidDevice

       -       8       17        -        /dev/sdb1
       -       8       33        -        /dev/sdc1
       -       8       49        -        /dev/sdd1
       -       8       65        -        /dev/sde1

cat /proc/mdstat

1
2
3
4
5
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : inactive sdd1[2](S) sde1[4](S) sdb1[0](S) sdc1[1](S)
      11720521570 blocks super 1.2

unused devices: <none>

Soweit erstmal danke für die Hilfe ☺

Y05H10

(Themenstarter)

Anmeldungsdatum:
5. Oktober 2016

Beiträge: 9

Scheinbar war eine von meinem Festplatten SATA Mäßig nicht ordentlich verbunden. Bei einem Reboot hing ich bei "verifying dmi pool data". Nachdem ich die neu Verbunden hatte, und mein raid device neu --create 'd habe bin ich nun wieder im spare rebuilding.

Allerdings dauert es diesmal wohl nur 350min 😉

Vielen Dank Leute!

frostschutz

Avatar von frostschutz

Anmeldungsdatum:
18. November 2010

Beiträge: 7790

Du hast oben nur eine Platte gepostet. Ist mir nichts zu eingefallen.

Nachdem ich die neu Verbunden hatte, und mein raid device neu --create 'd habe

Meinst du --assemble? --create ist wie mkfs. Wenn man nicht ganz genau weiß was man tut — http://unix.stackexchange.com/a/131927/30851 — sind danach nicht mehr unbedingt Daten darauf vorzufinden.

Antworten |