[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: RAID5 disco duro con errores en Debian Wheezy



El día 4 de marzo de 2015, 12:06, Maykel Franco
<maykeldebian@gmail.com> escribió:
> El día 2 de marzo de 2015, 11:40, Maykel Franco
> <maykeldebian@gmail.com> escribió:
>> El día 3 de febrero de 2015, 15:52, Camaleón <noelamac@gmail.com> escribió:
>>> El Tue, 03 Feb 2015 11:42:17 +0100, Maykel Franco escribió:
>>>
>>>> Hola buenas, tengo montado un raid5 en una máquina.
>>>
>>> ¿Qué tipo de raid? ¿md, dm, hardware raid...?
>>
>> mdadm
>>
>>>
>>>> El caso es que he empezado a recibir errores de smart , uso ese
>>>> servicio en linux para chequear los discos duros:
>>>>
>>>> The following warning/error was logged by the smartd daemon:
>>>>
>>>> Device: /dev/sdd [SAT], Failed SMART usage Attribute: 184
>>>> End-to-End_Error.
>>>
>>> Según Wikiepdia, ese error significa:
>>>
>>> ***
>>> 184     0xB8    End-to-End error / IOEDC        Lower
>>> This attribute is a part of Hewlett-Packard's SMART IV technology, as well
>>> as part of other vendors' IO Error Detection and Correction schemas, and
>>> it contains a count of parity errors which occur in the data path to the
>>> media via the drive's cache RAM.[25]
>>> ***
>>>
>>> Ejecuta el smartctl sobre ese disco y si te dice SMART FAILED vete preparando para reemplazarlo. Ya.
>>
>> El caso es que aquí dice PASSED.
>>
>>>
>>>> For details see host's SYSLOG.
>>>>
>>>> He mirado el dmesg, syslog, messages.
>>>>
>>>> SYSLOG:
>>>>
>>>> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 102 to 112
>>>> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 117 to 118
>>>> Feb  3 06:40:07 owncloud-mo2o smartd[3934]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 119 to
>>>
>>> (...)
>>>
>>> Esos mensajes son normales siempre y cuando se mantengan en márgenes
>>> razonables y el smartcl te diga PASSED. Fíjate que se dan en los 3
>>> discos duros no sólo en el que parece más tocado (/dev/sdd).
>>
>> Cierto.
>>
>>>
>>>> En DMESG:
>>>>
>>>>
>>>> [77815.914218] end_request: I/O error, dev sdd, sector 1953870271
>>>> [77822.606004]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask  0x9 (media error)
>>>> [77822.611209] ata6.00: error: { UNC }
>>>> [77828.413854]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>>> [77828.419051] ata6.00: error: { UNC }
>>>> [77831.347706]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>>> [77831.352926] ata6.00: error: { UNC }
>>>> [77834.256321]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>>> [77834.261514] ata6.00: error: { UNC }
>>>> [77840.498960]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>>> [77840.504127] ata6.00: error: { UNC }
>>>> [77843.390278]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>>> [77843.395449] ata6.00: error: { UNC }
>>>> [77843.448049] sd 5:0:0:0: [sdd]  Add. Sense: Unrecovered read error - auto reallocate failed
>>>> [77843.448063] end_request: I/O error, dev sdd, sector 1953870335
>>>> [77850.104482] md/raid:md0: read error corrected (8 sectors at 1953870016 on sdd1)
>>>> [77850.120659] md/raid:md0: read error corrected (8 sectors at 1953870080 on sdd1)
>>>> [77850.120914] md/raid:md0: read error corrected (8 sectors at 1953870144 on sdd1)
>>>> [77853.154374] md/raid:md0: read error corrected (8 sectors at 1953870208 on sdd1)
>>>> [77856.217365] md/raid:md0: read error corrected (8 sectors at 1953870272 on sdd1)
>>>
>>> Vale, usas mdraid y lo que te dice ahí es que ha encontrado sectores
>>> defectuosos en la partición /dev/sdd1 y los ha corregido. Hasta ahí
>>> todo normal.
>>>
>>>> El caso es que el raid5 lleva reconstruyéndose desde ayer, va lentísimo
>>>> y me huele que pudiera ser algo de disco duro...
>>>>
>>>> md0 : active raid5 sdb1[0] sdd1[3] sdc1[4]
>>>>       3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3]
>>>>       [UUU]
>>>>       [===================>.]  check = 97.5% (1905813196/1953510400)
>>>> finish=69826.9min speed=11K/sec
>>>
>>> Deja que termine la reconstrucción pero cuando lo haga pasa el smartctl
>>> (test largo) al disco /dev/sdd y en base a los resultados actúas.
>>>
>>>> Aunque en esta guía hablan de recolocar los sectores defectuosos...Qué
>>>> me aconsejáis hacer, además de un backup, por supuesto?
>>>>
>>>>
>>>> http://www.sj-vs.net/forcing-a-hard-disk-to-reallocate-bad-sectors/
>>>
>>> Los discos duros modernos llevan en su firmware la lógica necesaria para
>>> marcar automáticamente como defectuosos los sectores con errores y eso
>>> es lo que te dice el registro. Pero todo tiene un límite, y si esos
>>> sectores van en aumento y el raid 5 se cae cada poco tiempo puede indicar
>>> que el disco está a punto de morir. Para asegurarte pasa la utilidad de
>>> SAMRT del propio fabricante, te diré en qué estado se encuentra el disco.
>>
>> Gracias, eso es lo que voy hacer. Tampoco quiero dejar al servidor con
>> un raid5 degradado pero muchas veces merece la pena parar y ver qué es
>> lo que pasa.
>>
>> Le he pasado un test largo con smartctl, comento resultados.
>>
>>>
>>> Saludos,
>> Gracias.
>>>
>>> --
>>> Camaleón
>>>
>>>
>>> --
>>> To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@lists.debian.org
>>> with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
>>> Archive: https://lists.debian.org/pan.2015.02.03.14.52.29@gmail.com
>>>
>
> Este es el resultado de un test largo con smartctl:
>
> smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
> Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
>
> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
> Please note the following marginal Attributes:
> ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE
> UPDATED  WHEN_FAILED RAW_VALUE
> 184 End-to-End_Error        0x0032   086   086   099    Old_age
> Always   FAILING_NOW 14
>
> Por lo pronto lo voy a cambiar por otro disco, reconstruyo el raid y
> como es un seagate, le pasaré el seatools aconsejado por Camaleón.
>
> Saludos.

He cambiado el disco duro, he añadido otro que también me ha
reconocido con la misma nomenclatura /dev/sdd. Le he puesto el mismo
particionado que otro disco duro del raid, con sfdisk

sfdisk -d /dev/sdb | sfdisk --force /dev/sdd

root@server:~# fdisk -l /dev/sdd

Disk /dev/sdd: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sdd1              63  3907024064  1953512001   fd  Linux raid autodetect
Partition 1 does not start on physical sector boundary.

Pero veo que la sincronización del raid va muy lenta...

md0 : active raid5 sdd1[3] sdb1[0] sdc1[4]
      3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  0.0% (80696/1953510400)
finish=2939188.2min speed=10K/sec

unused devices: <none>
root@owncloud-mo2o:~# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdd1[3] sdb1[0] sdc1[4]
      3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  0.0% (163328/1953510400)
finish=16661.0min speed=1953K/sec

unused devices: <none>
root@owncloud-mo2o:~# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdd1[3] sdb1[0] sdc1[4]
      3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  0.0% (163328/1953510400)
finish=12941.4min speed=2515K/sec

unused devices: <none>
root@owncloud-mo2o:~# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdd1[3] sdb1[0] sdc1[4]
      3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  0.0% (163328/1953510400)
finish=17080.0min speed=1905K/sec


No sé si será normal o puede que esté otro disco duro tocado...En
principio solo era el /dev/sdd


Reply to: