[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OT] Duda con "bad magic number in superblock"



Hola:


El 11/05/16 a las 10:40, Camaleón escribió:
El Wed, 11 May 2016 05:26:07 -0300, Walter O. Dari escribió:

Este error implica un daño físico en la unidad de disco o un problema de
partición ?

Problema con el sistema de archivos pero puede ser debido a un error
físico del disco duro, claro.

Uno de los discos del raid1 (con mdadm) dejó de sincronizar y daba este
error.

Intenté cambiando el super bloque por alguna de las copias que obtenía
con...

mke2fs -n /dev/sdb

y luego...

e2fsck -b  num_supblk /dev/sdb

y no tuve resultados.

Borré la partición del disco y la volví a crear. Luego puse a
sincronizar y hasta ahora va sin problemas (un poco lento porque son 2
discos de 2 Tb).

Por eso la pregunta inicial, porque si fuera un problema físico
reemplazaría el disco directamente.

Los RAID tienen muchos falsos positivos, desgraciadamente... pero si
fuera un error del disco duro no se podría reconstruir el RAID o estaría
continuamente cayéndose. De todas formas, pasa el test SMART a ese disco
y así descartas cualquier problema mayor.

Pasan cosas curiosas...

Luego de varias horas de poner a sincronizar el disco en cuestión, vuelvo al servidor y veo que daba un problema con /dev/sdc (en el raid estaba activo /dev/sda y había puesto a sincronizar /dev/sdb -el del "bad magic number"-):

end_request: I/O error, dev sdc, sector 798725936

... y muchísimas líneas más donde se refería a otros números de sectores.

Por este motivo, reemplacé el disco en cuestión, volví a instalar Jessie y puse a sincronizar nuevamente el disco sdb en el raid.

Luego de unas horas, otra vez el mismo mensaje respecto a /dev/sdb...

end_request: I/O error, dev sdc, sector nnnnn

Volví a reemplazar el disco, esta vez por uno nuevo, puse a sincronizar el raid y luego de varias horas...

end_request: I/O error, dev sdc, sector nnnnn

A esta altura ya tengo ganas de revolear todo por la ventana.

Antes de comenzar hice un smartctl -a /dev/sdc y le corrí el test rápido, no arroja errores ni anomalías.

En cambio el disco que intentaba sincronizar (/dev/sdb) si tiene problemas -estaba convencido que era de 2 Tb y era de 1,5 Tb-, el resultado "recortado" de smartctl -a, es...

--------------------------------------------------------------------
root@svrsw1:~# smartctl -a /dev/sdb
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green (AF)
Device Model: WDC WD15EARS-00MVWB0
Serial Number: WD-WMAZA1121920
LU WWN Device Id: 5 0014ee 655ecf287
Firmware Version: 51.0AB51
User Capacity:  1.500.301.910.016 bytes [1,50 TB]
Sector Size:  512 bytes logical/physical
Device is:  In smartctl database [for details use: -P show]
ATA Version is:  ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:  Thu May 12 08:51:04 2016 ART
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x85) Offline data collection activity was aborted by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 113) The previous self-test completed having the read element of the test failed.
Total time to complete Offline data collection: (38580) seconds.
Offline data collection capabilities:(0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine recommended polling time: ( 372) minutes.
Conveyance self-test routine recommended polling time: (  5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME        VALUE WORST THRESH  RAW_VALUE
5   Reallocated_Sector_Ct   193   193    140        145
197 Current_Pending_Sector  196   195    000       1023
198 Offline_Uncorrectable   199   195    000        457

SMART Error Log Version: 1
No Errors Logged
--------------------------------------------------------------------

Estos son los tres atributos que no están bien.

Lo que me extraña es el mensaje que termina dando siempre de /dev/sdc que mencionaba al principio. Ya que tres discos tengan problemas me resulta demasiado extraño.

Algo que noté, es que si uso el equipo sin intentar sincronizar /dev/sdb, en ningún momento da problemas con /dev/sdc. Solamente los da cuando intentaba sincronizar sin éxito el disco que, por lo que dice smart, evidentemente tiene problemas.

Bueno, quería comentar esto porque me resultó raro.

Ahora tendré que gastar unos cuantos pesos y comprar 2 discos para poner nuevamente el servidor en marcha con hardware seguro.


Saludos,


Saludos,

--

Walter O. Dari

http://swcomputacion.com/
http://swcomputacion.com/sistemas/
https://facebook.com/swcomputacion/
https://facebook.com/sistemasSW/
skype: waomda


Reply to: