[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: RAID5 disco duro con errores en Debian Wheezy



El día 3 de febrero de 2015, 15:52, Camaleón <noelamac@gmail.com> escribió:
> El Tue, 03 Feb 2015 11:42:17 +0100, Maykel Franco escribió:
>
>> Hola buenas, tengo montado un raid5 en una máquina.
>
> ¿Qué tipo de raid? ¿md, dm, hardware raid...?

mdadm

>
>> El caso es que he empezado a recibir errores de smart , uso ese
>> servicio en linux para chequear los discos duros:
>>
>> The following warning/error was logged by the smartd daemon:
>>
>> Device: /dev/sdd [SAT], Failed SMART usage Attribute: 184
>> End-to-End_Error.
>
> Según Wikiepdia, ese error significa:
>
> ***
> 184     0xB8    End-to-End error / IOEDC        Lower
> This attribute is a part of Hewlett-Packard's SMART IV technology, as well
> as part of other vendors' IO Error Detection and Correction schemas, and
> it contains a count of parity errors which occur in the data path to the
> media via the drive's cache RAM.[25]
> ***
>
> Ejecuta el smartctl sobre ese disco y si te dice SMART FAILED vete preparando para reemplazarlo. Ya.

El caso es que aquí dice PASSED.

>
>> For details see host's SYSLOG.
>>
>> He mirado el dmesg, syslog, messages.
>>
>> SYSLOG:
>>
>> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 102 to 112
>> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 117 to 118
>> Feb  3 06:40:07 owncloud-mo2o smartd[3934]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 119 to
>
> (...)
>
> Esos mensajes son normales siempre y cuando se mantengan en márgenes
> razonables y el smartcl te diga PASSED. Fíjate que se dan en los 3
> discos duros no sólo en el que parece más tocado (/dev/sdd).

Cierto.

>
>> En DMESG:
>>
>>
>> [77815.914218] end_request: I/O error, dev sdd, sector 1953870271
>> [77822.606004]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask  0x9 (media error)
>> [77822.611209] ata6.00: error: { UNC }
>> [77828.413854]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>> [77828.419051] ata6.00: error: { UNC }
>> [77831.347706]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>> [77831.352926] ata6.00: error: { UNC }
>> [77834.256321]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>> [77834.261514] ata6.00: error: { UNC }
>> [77840.498960]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>> [77840.504127] ata6.00: error: { UNC }
>> [77843.390278]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>> [77843.395449] ata6.00: error: { UNC }
>> [77843.448049] sd 5:0:0:0: [sdd]  Add. Sense: Unrecovered read error - auto reallocate failed
>> [77843.448063] end_request: I/O error, dev sdd, sector 1953870335
>> [77850.104482] md/raid:md0: read error corrected (8 sectors at 1953870016 on sdd1)
>> [77850.120659] md/raid:md0: read error corrected (8 sectors at 1953870080 on sdd1)
>> [77850.120914] md/raid:md0: read error corrected (8 sectors at 1953870144 on sdd1)
>> [77853.154374] md/raid:md0: read error corrected (8 sectors at 1953870208 on sdd1)
>> [77856.217365] md/raid:md0: read error corrected (8 sectors at 1953870272 on sdd1)
>
> Vale, usas mdraid y lo que te dice ahí es que ha encontrado sectores
> defectuosos en la partición /dev/sdd1 y los ha corregido. Hasta ahí
> todo normal.
>
>> El caso es que el raid5 lleva reconstruyéndose desde ayer, va lentísimo
>> y me huele que pudiera ser algo de disco duro...
>>
>> md0 : active raid5 sdb1[0] sdd1[3] sdc1[4]
>>       3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3]
>>       [UUU]
>>       [===================>.]  check = 97.5% (1905813196/1953510400)
>> finish=69826.9min speed=11K/sec
>
> Deja que termine la reconstrucción pero cuando lo haga pasa el smartctl
> (test largo) al disco /dev/sdd y en base a los resultados actúas.
>
>> Aunque en esta guía hablan de recolocar los sectores defectuosos...Qué
>> me aconsejáis hacer, además de un backup, por supuesto?
>>
>>
>> http://www.sj-vs.net/forcing-a-hard-disk-to-reallocate-bad-sectors/
>
> Los discos duros modernos llevan en su firmware la lógica necesaria para
> marcar automáticamente como defectuosos los sectores con errores y eso
> es lo que te dice el registro. Pero todo tiene un límite, y si esos
> sectores van en aumento y el raid 5 se cae cada poco tiempo puede indicar
> que el disco está a punto de morir. Para asegurarte pasa la utilidad de
> SAMRT del propio fabricante, te diré en qué estado se encuentra el disco.

Gracias, eso es lo que voy hacer. Tampoco quiero dejar al servidor con
un raid5 degradado pero muchas veces merece la pena parar y ver qué es
lo que pasa.

Le he pasado un test largo con smartctl, comento resultados.

>
> Saludos,
Gracias.
>
> --
> Camaleón
>
>
> --
> To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@lists.debian.org
> with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
> Archive: https://lists.debian.org/pan.2015.02.03.14.52.29@gmail.com
>


Reply to: