[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OT] Duda con "bad magic number in superblock"



El Thu, 12 May 2016 09:34:53 -0300, Walter O. Dari escribió:

> El 11/05/16 a las 10:40, Camaleón escribió:

(...)

>> Los RAID tienen muchos falsos positivos, desgraciadamente... pero si
>> fuera un error del disco duro no se podría reconstruir el RAID o
>> estaría continuamente cayéndose. De todas formas, pasa el test SMART
>> a ese disco y así descartas cualquier problema mayor.
> 
> Pasan cosas curiosas...
> 
> Luego de varias horas de poner a sincronizar el disco en cuestión,
> vuelvo al servidor y veo que daba un problema con /dev/sdc (en el raid
> estaba activo /dev/sda y había puesto a sincronizar /dev/sdb -el del
> "bad magic number"-):
> 
> end_request: I/O error, dev sdc, sector 798725936
> 
> ... y muchísimas líneas más donde se refería a otros números de
> sectores.
> 
> Por este motivo, reemplacé el disco en cuestión, volví a instalar Jessie
> y puse a sincronizar nuevamente el disco sdb en el raid.
> 
> Luego de unas horas, otra vez el mismo mensaje respecto a /dev/sdb...
> 
> end_request: I/O error, dev sdc, sector nnnnn
> 
> Volví a reemplazar el disco, esta vez por uno nuevo, puse a sincronizar
> el raid y luego de varias horas...
> 
> end_request: I/O error, dev sdc, sector nnnnn
> 
> A esta altura ya tengo ganas de revolear todo por la ventana.

Teorías:

1/ Si el sistema de archivos está dañado, al tener los discos en raid es 
posible que estés "replicando" los bloques defectuosos en el resto de los 
discos duros que conforman la matriz.

2/ Se trata de un falso positivo de md, quizá debido a algún problema con 
los puertos donde tienes contactados los discos.

3/ Están fallando varios discos al mismo tiempo.

> Antes de comenzar hice un smartctl -a /dev/sdc y le corrí el test
> rápido, no arroja errores ni anomalías.
> 
> En cambio el disco que intentaba sincronizar (/dev/sdb) si tiene
> problemas -estaba convencido que era de 2 Tb y era de 1,5 Tb-, el
> resultado "recortado" de smartctl -a, es...

(...)

> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED

Eso es buena señal.

(...)

> SMART Attributes Data Structure revision number: 16 Vendor Specific
> SMART Attributes with Thresholds:
> ID# ATTRIBUTE_NAME        VALUE WORST THRESH  RAW_VALUE 5  
> Reallocated_Sector_Ct   193   193    140        145 197
> Current_Pending_Sector  196   195    000       1023 198
> Offline_Uncorrectable   199   195    000        457

(...)

> Estos son los tres atributos que no están bien.

Concuerdo, son 3 atributos clave y los valores son muy elevados.

> Lo que me extraña es el mensaje que termina dando siempre de /dev/sdc
> que mencionaba al principio. Ya que tres discos tengan problemas me
> resulta demasiado extraño.
> 
> Algo que noté, es que si uso el equipo sin intentar sincronizar
> /dev/sdb, en ningún momento da problemas con /dev/sdc. Solamente los da
> cuando intentaba sincronizar sin éxito el disco que, por lo que dice
> smart, evidentemente tiene problemas.
> 
> Bueno, quería comentar esto porque me resultó raro.
> 
> Ahora tendré que gastar unos cuantos pesos y comprar 2 discos para poner
> nuevamente el servidor en marcha con hardware seguro.

Pasa el test smart del fabricante a todos los discos duros que tengas, 
suele venir en formato ISO para grabar en CD e iniciar desde ahí. Si 
detecta algún sector defectuoso lo corregirá y lo marcará para que no te 
dé problemas pero si esos 3 valores siguen aumentando vete pensando en 
reemplazar el disco (o discos) afectados.

Saludos,

-- 
Camaleón


Reply to: