Re: RAID5 disco duro con errores en Debian Wheezy

To: debian-user-spanish <debian-user-spanish@lists.debian.org>
Subject: Re: RAID5 disco duro con errores en Debian Wheezy
From: Maykel Franco <maykeldebian@gmail.com>
Date: Wed, 4 Mar 2015 12:06:38 +0100
Message-id: <[🔎] CAJ2aOA_dPWFDxc=L6vdvXQmVbxwjN4yUo66nqPCgdH8nkYSGQQ@mail.gmail.com>
In-reply-to: <[🔎] CAJ2aOA_+9bde2bv+gRPMX4fsJuhv4qD4nY0iABSBsjcNQtVx7w@mail.gmail.com>
References: <CAJ2aOA99M8XKQjYxxYRw6-=b3F-sAcxBRWxRwMtVQscQmWOYuA@mail.gmail.com> <pan.2015.02.03.14.52.29@gmail.com> <[🔎] CAJ2aOA_+9bde2bv+gRPMX4fsJuhv4qD4nY0iABSBsjcNQtVx7w@mail.gmail.com>

El día 2 de marzo de 2015, 11:40, Maykel Franco
<maykeldebian@gmail.com> escribió:
> El día 3 de febrero de 2015, 15:52, Camaleón <noelamac@gmail.com> escribió:
>> El Tue, 03 Feb 2015 11:42:17 +0100, Maykel Franco escribió:
>>
>>> Hola buenas, tengo montado un raid5 en una máquina.
>>
>> ¿Qué tipo de raid? ¿md, dm, hardware raid...?
>
> mdadm
>
>>
>>> El caso es que he empezado a recibir errores de smart , uso ese
>>> servicio en linux para chequear los discos duros:
>>>
>>> The following warning/error was logged by the smartd daemon:
>>>
>>> Device: /dev/sdd [SAT], Failed SMART usage Attribute: 184
>>> End-to-End_Error.
>>
>> Según Wikiepdia, ese error significa:
>>
>> ***
>> 184     0xB8    End-to-End error / IOEDC        Lower
>> This attribute is a part of Hewlett-Packard's SMART IV technology, as well
>> as part of other vendors' IO Error Detection and Correction schemas, and
>> it contains a count of parity errors which occur in the data path to the
>> media via the drive's cache RAM.[25]
>> ***
>>
>> Ejecuta el smartctl sobre ese disco y si te dice SMART FAILED vete preparando para reemplazarlo. Ya.
>
> El caso es que aquí dice PASSED.
>
>>
>>> For details see host's SYSLOG.
>>>
>>> He mirado el dmesg, syslog, messages.
>>>
>>> SYSLOG:
>>>
>>> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 102 to 112
>>> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 117 to 118
>>> Feb  3 06:40:07 owncloud-mo2o smartd[3934]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 119 to
>>
>> (...)
>>
>> Esos mensajes son normales siempre y cuando se mantengan en márgenes
>> razonables y el smartcl te diga PASSED. Fíjate que se dan en los 3
>> discos duros no sólo en el que parece más tocado (/dev/sdd).
>
> Cierto.
>
>>
>>> En DMESG:
>>>
>>>
>>> [77815.914218] end_request: I/O error, dev sdd, sector 1953870271
>>> [77822.606004]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask  0x9 (media error)
>>> [77822.611209] ata6.00: error: { UNC }
>>> [77828.413854]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>> [77828.419051] ata6.00: error: { UNC }
>>> [77831.347706]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>> [77831.352926] ata6.00: error: { UNC }
>>> [77834.256321]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>> [77834.261514] ata6.00: error: { UNC }
>>> [77840.498960]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>> [77840.504127] ata6.00: error: { UNC }
>>> [77843.390278]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
>>> [77843.395449] ata6.00: error: { UNC }
>>> [77843.448049] sd 5:0:0:0: [sdd]  Add. Sense: Unrecovered read error - auto reallocate failed
>>> [77843.448063] end_request: I/O error, dev sdd, sector 1953870335
>>> [77850.104482] md/raid:md0: read error corrected (8 sectors at 1953870016 on sdd1)
>>> [77850.120659] md/raid:md0: read error corrected (8 sectors at 1953870080 on sdd1)
>>> [77850.120914] md/raid:md0: read error corrected (8 sectors at 1953870144 on sdd1)
>>> [77853.154374] md/raid:md0: read error corrected (8 sectors at 1953870208 on sdd1)
>>> [77856.217365] md/raid:md0: read error corrected (8 sectors at 1953870272 on sdd1)
>>
>> Vale, usas mdraid y lo que te dice ahí es que ha encontrado sectores
>> defectuosos en la partición /dev/sdd1 y los ha corregido. Hasta ahí
>> todo normal.
>>
>>> El caso es que el raid5 lleva reconstruyéndose desde ayer, va lentísimo
>>> y me huele que pudiera ser algo de disco duro...
>>>
>>> md0 : active raid5 sdb1[0] sdd1[3] sdc1[4]
>>>       3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3]
>>>       [UUU]
>>>       [===================>.]  check = 97.5% (1905813196/1953510400)
>>> finish=69826.9min speed=11K/sec
>>
>> Deja que termine la reconstrucción pero cuando lo haga pasa el smartctl
>> (test largo) al disco /dev/sdd y en base a los resultados actúas.
>>
>>> Aunque en esta guía hablan de recolocar los sectores defectuosos...Qué
>>> me aconsejáis hacer, además de un backup, por supuesto?
>>>
>>>
>>> http://www.sj-vs.net/forcing-a-hard-disk-to-reallocate-bad-sectors/
>>
>> Los discos duros modernos llevan en su firmware la lógica necesaria para
>> marcar automáticamente como defectuosos los sectores con errores y eso
>> es lo que te dice el registro. Pero todo tiene un límite, y si esos
>> sectores van en aumento y el raid 5 se cae cada poco tiempo puede indicar
>> que el disco está a punto de morir. Para asegurarte pasa la utilidad de
>> SAMRT del propio fabricante, te diré en qué estado se encuentra el disco.
>
> Gracias, eso es lo que voy hacer. Tampoco quiero dejar al servidor con
> un raid5 degradado pero muchas veces merece la pena parar y ver qué es
> lo que pasa.
>
> Le he pasado un test largo con smartctl, comento resultados.
>
>>
>> Saludos,
> Gracias.
>>
>> --
>> Camaleón
>>
>>
>> --
>> To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@lists.debian.org
>> with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
>> Archive: https://lists.debian.org/pan.2015.02.03.14.52.29@gmail.com
>>

Este es el resultado de un test largo con smartctl:

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Please note the following marginal Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE
UPDATED  WHEN_FAILED RAW_VALUE
184 End-to-End_Error        0x0032   086   086   099    Old_age
Always   FAILING_NOW 14

Por lo pronto lo voy a cambiar por otro disco, reconstruyo el raid y
como es un seagate, le pasaré el seatools aconsejado por Camaleón.

Saludos.

Reply to:

Follow-Ups:
- Re: RAID5 disco duro con errores en Debian Wheezy
  - From: Maykel Franco <maykeldebian@gmail.com>
- Re: RAID5 disco duro con errores en Debian Wheezy
  - From: Camaleón <noelamac@gmail.com>

References:
- Re: RAID5 disco duro con errores en Debian Wheezy
  - From: Maykel Franco <maykeldebian@gmail.com>

Prev by Date: Re: Tomcat web administración acceso
Next by Date: [SOLUCIONADO] Re: Tomcat web administración acceso
Previous by thread: Re: RAID5 disco duro con errores en Debian Wheezy
Next by thread: Re: RAID5 disco duro con errores en Debian Wheezy
Index(es):
- Date
- Thread