[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: RAID5 disco duro con errores en Debian Wheezy



El Tue, 03 Feb 2015 11:42:17 +0100, Maykel Franco escribió:

> Hola buenas, tengo montado un raid5 en una máquina. 

¿Qué tipo de raid? ¿md, dm, hardware raid...?

> El caso es que he empezado a recibir errores de smart , uso ese
> servicio en linux para chequear los discos duros:
> 
> The following warning/error was logged by the smartd daemon:
> 
> Device: /dev/sdd [SAT], Failed SMART usage Attribute: 184
> End-to-End_Error.

Según Wikiepdia, ese error significa:

***
184 	0xB8 	End-to-End error / IOEDC 	Lower
This attribute is a part of Hewlett-Packard's SMART IV technology, as well 
as part of other vendors' IO Error Detection and Correction schemas, and 
it contains a count of parity errors which occur in the data path to the 
media via the drive's cache RAM.[25]
***

Ejecuta el smartctl sobre ese disco y si te dice SMART FAILED vete preparando para reemplazarlo. Ya.

> For details see host's SYSLOG.
> 
> He mirado el dmesg, syslog, messages.
> 
> SYSLOG:
> 
> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 102 to 112 
> Feb  3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 117 to 118 
> Feb  3 06:40:07 owncloud-mo2o smartd[3934]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 119 to

(...)

Esos mensajes son normales siempre y cuando se mantengan en márgenes 
razonables y el smartcl te diga PASSED. Fíjate que se dan en los 3 
discos duros no sólo en el que parece más tocado (/dev/sdd).

> En DMESG:
> 
> 
> [77815.914218] end_request: I/O error, dev sdd, sector 1953870271
> [77822.606004]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask  0x9 (media error)
> [77822.611209] ata6.00: error: { UNC }
> [77828.413854]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
> [77828.419051] ata6.00: error: { UNC }
> [77831.347706]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
> [77831.352926] ata6.00: error: { UNC }
> [77834.256321]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
> [77834.261514] ata6.00: error: { UNC }
> [77840.498960]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
> [77840.504127] ata6.00: error: { UNC }
> [77843.390278]          res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 (media error)
> [77843.395449] ata6.00: error: { UNC }
> [77843.448049] sd 5:0:0:0: [sdd]  Add. Sense: Unrecovered read error - auto reallocate failed 
> [77843.448063] end_request: I/O error, dev sdd, sector 1953870335 
> [77850.104482] md/raid:md0: read error corrected (8 sectors at 1953870016 on sdd1)
> [77850.120659] md/raid:md0: read error corrected (8 sectors at 1953870080 on sdd1)
> [77850.120914] md/raid:md0: read error corrected (8 sectors at 1953870144 on sdd1)
> [77853.154374] md/raid:md0: read error corrected (8 sectors at 1953870208 on sdd1)
> [77856.217365] md/raid:md0: read error corrected (8 sectors at 1953870272 on sdd1)

Vale, usas mdraid y lo que te dice ahí es que ha encontrado sectores 
defectuosos en la partición /dev/sdd1 y los ha corregido. Hasta ahí 
todo normal.

> El caso es que el raid5 lleva reconstruyéndose desde ayer, va lentísimo
> y me huele que pudiera ser algo de disco duro...
> 
> md0 : active raid5 sdb1[0] sdd1[3] sdc1[4]
>       3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3]
>       [UUU]
>       [===================>.]  check = 97.5% (1905813196/1953510400)
> finish=69826.9min speed=11K/sec

Deja que termine la reconstrucción pero cuando lo haga pasa el smartctl 
(test largo) al disco /dev/sdd y en base a los resultados actúas.

> Aunque en esta guía hablan de recolocar los sectores defectuosos...Qué
> me aconsejáis hacer, además de un backup, por supuesto?
> 
> 
> http://www.sj-vs.net/forcing-a-hard-disk-to-reallocate-bad-sectors/

Los discos duros modernos llevan en su firmware la lógica necesaria para
marcar automáticamente como defectuosos los sectores con errores y eso 
es lo que te dice el registro. Pero todo tiene un límite, y si esos 
sectores van en aumento y el raid 5 se cae cada poco tiempo puede indicar
que el disco está a punto de morir. Para asegurarte pasa la utilidad de 
SAMRT del propio fabricante, te diré en qué estado se encuentra el disco.

Saludos,

-- 
Camaleón


Reply to: