Re: [OT] Duda con "bad magic number in superblock"
El Thu, 12 May 2016 09:34:53 -0300, Walter O. Dari escribió:
> El 11/05/16 a las 10:40, Camaleón escribió:
(...)
>> Los RAID tienen muchos falsos positivos, desgraciadamente... pero si
>> fuera un error del disco duro no se podrÃa reconstruir el RAID o
>> estarÃa continuamente cayéndose. De todas formas, pasa el test SMART
>> a ese disco y asà descartas cualquier problema mayor.
>
> Pasan cosas curiosas...
>
> Luego de varias horas de poner a sincronizar el disco en cuestión,
> vuelvo al servidor y veo que daba un problema con /dev/sdc (en el raid
> estaba activo /dev/sda y había puesto a sincronizar /dev/sdb -el del
> "bad magic number"-):
>
> end_request: I/O error, dev sdc, sector 798725936
>
> ... y muchísimas líneas más donde se refería a otros números de
> sectores.
>
> Por este motivo, reemplacé el disco en cuestión, volví a instalar Jessie
> y puse a sincronizar nuevamente el disco sdb en el raid.
>
> Luego de unas horas, otra vez el mismo mensaje respecto a /dev/sdb...
>
> end_request: I/O error, dev sdc, sector nnnnn
>
> Volví a reemplazar el disco, esta vez por uno nuevo, puse a sincronizar
> el raid y luego de varias horas...
>
> end_request: I/O error, dev sdc, sector nnnnn
>
> A esta altura ya tengo ganas de revolear todo por la ventana.
Teorías:
1/ Si el sistema de archivos está dañado, al tener los discos en raid es
posible que estés "replicando" los bloques defectuosos en el resto de los
discos duros que conforman la matriz.
2/ Se trata de un falso positivo de md, quizá debido a algún problema con
los puertos donde tienes contactados los discos.
3/ Están fallando varios discos al mismo tiempo.
> Antes de comenzar hice un smartctl -a /dev/sdc y le corrí el test
> rápido, no arroja errores ni anomalías.
>
> En cambio el disco que intentaba sincronizar (/dev/sdb) si tiene
> problemas -estaba convencido que era de 2 Tb y era de 1,5 Tb-, el
> resultado "recortado" de smartctl -a, es...
(...)
> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
Eso es buena señal.
(...)
> SMART Attributes Data Structure revision number: 16 Vendor Specific
> SMART Attributes with Thresholds:
> ID# ATTRIBUTE_NAME VALUE WORST THRESH RAW_VALUE 5
> Reallocated_Sector_Ct 193 193 140 145 197
> Current_Pending_Sector 196 195 000 1023 198
> Offline_Uncorrectable 199 195 000 457
(...)
> Estos son los tres atributos que no están bien.
Concuerdo, son 3 atributos clave y los valores son muy elevados.
> Lo que me extraña es el mensaje que termina dando siempre de /dev/sdc
> que mencionaba al principio. Ya que tres discos tengan problemas me
> resulta demasiado extraño.
>
> Algo que noté, es que si uso el equipo sin intentar sincronizar
> /dev/sdb, en ningún momento da problemas con /dev/sdc. Solamente los da
> cuando intentaba sincronizar sin éxito el disco que, por lo que dice
> smart, evidentemente tiene problemas.
>
> Bueno, quería comentar esto porque me resultó raro.
>
> Ahora tendré que gastar unos cuantos pesos y comprar 2 discos para poner
> nuevamente el servidor en marcha con hardware seguro.
Pasa el test smart del fabricante a todos los discos duros que tengas,
suele venir en formato ISO para grabar en CD e iniciar desde ahí. Si
detecta algún sector defectuoso lo corregirá y lo marcará para que no te
dé problemas pero si esos 3 valores siguen aumentando vete pensando en
reemplazar el disco (o discos) afectados.
Saludos,
--
Camaleón
Reply to: