[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OT] Raid por hardware



El Sat, 10 Jan 2015 13:30:15 +0100, José Miguel (sio2) escribió:

> El Fri, 09 de Jan de 2015, a las 06:26:43PM +0000, Camaleón dijo:
> 
>> Qué raro... fíjate que en el ejemplo que ponen en la página que te pasé
>> siguen exactamente la misma secuencia 21/2 y el resultado muestra el nº
>> de serie de los discos:
> 
>> [...]
>> 
>> PhysDisk 0 is Bus 0 Target 1
>>   PhysDisk State:  online PhysDisk Size 238418 MB, Inquiry Data:  ATA  
>>      ST3250620NS      3BKS
>> 
>> PhysDisk 1 is Bus 0 Target 8
>>   PhysDisk State:  online PhysDisk Size 238418 MB, Inquiry Data:  ATA  
>>      ST3250620NS      3BKS
>> ***
> 
> 
> ¿Dónde yo sólo veo una numeración que es igual para ambos discos
> (ST3250620NS), porque esa numeración indica el modelo?

Anda... pues tienes razón, es el modelo de los discos y si los tienes 
iguales no te sirve de nada, claro. 

Me parece raro que "lsiutil" no permita ver el número de serie porque lo 
interesante es saber cómo y dónde ha detectado la controladora raid los 
discos duros para poder trabajar con ellos porque de nada te sirve ver el 
número de serie desde fuera (p. ej., desde smartctl) ya que no sabes a 
qué ID ha asignado la controladora ese nº de serie.

Recuerda que también tienes el driver libre para monitorizar el raid 
("mtp-status"), nunca está de más comparar los resultados de dos 
aplicaciones.

>>> No toqué la BIOS para desactivar la controladora (miraré el lunes a
>>> ver cómo se hace). Lo que sí hice fue desconectar los discos de la
>>> controladora y conectarlos directamente a la placa base.
>> Carallo. ¿Y te inició el sistema sin más? :-?
> 
> ¿Y por qué no lo iba a hacer? La controladora se encarga de duplicar la
> información simplemente haciendo escrituras en ambos discos: pero la
> información es la información, ¿no?

Porque como te he dicho antes, la información de los datos del raid 
(metadatos) está en los discos duros y no estoy del todo segura de que el 
comportamiento de un disco duro que contiene información de un raid 
funcione correctamente sin estar conectado a la misma controladora y sin 
el resto de discos que forman la matriz. De hecho esa suele ser una de 
las pegas de los raid por hardware, que las migraciones no son sencillas.

Luego está el tema del driver que uses, es decir, si en linux has 
instalado el módulo mtpsas y al pinchar el disco a una controladora 
diferente necesitas un módulo distinto que no esté incluido en el kernel 
base no te va a reconocer el disco y no podrá iniciarse el sistema. 

Por eso te decía que has tenido mucha suerte.
 
>> Bueno, el estado del RAID no era normal, y eso no es casual. La
>> controladora estaba detectando algo que no le gustaba pero si mal no
>> recuerdo hiciste una actualización de la BIOS de la placa base y el
>> problema se produjo tras esa actualización.
> 
> No, el problema puede que fuera anterior. 

¡Tongo! :-)

> Resulta que la partición raíz se me puso en modo lectura por un fallo
> de disco. Miré los log y además del fallo de disco, vi que los mensajes
> de arranque me decían que la versión de la BIOS de la placa base tenían
> bugs y que la actualizara. De hecho, tengo conectada una tarjeta de red
> PCI con cuatro bocas y cuando hacía un arranque en caliente (un reboot,
> por ejemplo) desaparecía de mi sistema (no aparecía en un lspci). Así
> que actualicé la BIOS: dejó de aparecer el mensaje y, además,
> desapareció el problema de la tarjeta.

Entonces el estado del disco duro que veías en la controladora puede que 
viniera de esos lodos, es decir, que tuviera alguna tarea pendiente de 
hacer (reconstrucción) y que no estuviera relacionado con la 
actualización de la BIOS de la placa base.

>> Hum... por curiosidad (si puedes) manda la salida de "lspci -v" a ver
>> qué cosicas tiene ese equipo, quizá la controladora sas/sata integrada
>> en la placa base también use el driver mtp :-?
> 
> No parece que haya ninguna controladora integrada:

Hombre, tiene que haberla, eso seguro. No puedes pinchar los discos en el 
aire :-)

(se me olvidó decirte que lo ejecutaras como root pero bueno, se ven 
todos los datos interesantes)

> 00:1f.2 IDE interface: Intel Corporation 82801IR/IO/IH (ICH9R/DO/DH) 4
> port SATA Controller [IDE mode] (rev 02) (prog-if 8a [Master SecP PriP])
> 	Subsystem: Intel Corporation Device 34d0 Flags: bus master, 66MHz,
> 	medium devsel, latency 0, IRQ 21 I/O ports at 01f0 [size=8]
> 	I/O ports at 03f4 [size=1]
> 	I/O ports at 0170 [size=8]
> 	I/O ports at 0374 [size=1]
> 	I/O ports at 7410 [size=16]
> 	I/O ports at 7400 [size=16]
> 	Capabilities: <access denied>
> 	Kernel driver in use: ata_piix

(...)

> 00:1f.5 IDE interface: Intel Corporation 82801I (ICH9 Family) 2 port
> SATA Controller [IDE mode] (rev 02) (prog-if 85 [Master SecO PriO])
> 	Subsystem: Intel Corporation Device 34d0 Flags: bus master, 66MHz,
> 	medium devsel, latency 0, IRQ 21 I/O ports at 7428 [size=8]
> 	I/O ports at 7444 [size=4]
> 	I/O ports at 7420 [size=8]
> 	I/O ports at 7440 [size=4]
> 	I/O ports at 70f0 [size=16]
> 	I/O ports at 70e0 [size=16]
> 	Capabilities: <access denied>
> 	Kernel driver in use: ata_piix

(...)

> 07:00.0 SCSI storage controller: LSI Logic / Symbios Logic SAS1064ET
> PCI-Express Fusion-MPT SAS (rev 08)
> 	Subsystem: LSI Logic / Symbios Logic Device 3090 Flags: bus 
master,
> 	fast devsel, latency 0, IRQ 16 I/O ports at 2000 [size=256]
> 	Memory at e1e10000 (64-bit, non-prefetchable) [size=16K]
> 	Memory at e1e00000 (64-bit, non-prefetchable) [size=64K]
> 	Expansion ROM at f8400000 [disabled] [size=2M]
> 	Capabilities: <access denied>
> 	Kernel driver in use: mptsas

Ondiá. Vale, ya veo lo que pasa. Esa placa base tiene dos controladoras 
IDE/ATA y una controladora SAS/SATA que no es una controladora 
independiente (de las que puedes pinchar en cualquier placa base) sino de 
las tipo "zero channel", son tarjetas específicas para determinadas 
placas y que hacen uso del puerto PCI-e/PCI-X pero también dependen de la 
BIOS de la placa base para gestionar el RAID (en el manual de la placa 
base tendrás información ampliada sobre este tipo de chipsets y también 
te dirá si puedes desactivarlo o no).

> De todos modos, en ni en el otro servidor ni en mi casa aparece ahci en
> una salida de lspci, a pesar de que AHCI está construido como módulo (lo
> he comprobado echándole un vistazo a /boot/config-etc...

No, claro y ahora lo entiendo porqué no tienes ninguna controladora de 
disco duro que lo tenga habilitado (la controladora IDE tira del ata_piix 
y la SAS/SATA usa el mtpsas).

> Que siga cargándose el driver mpt es normal: la controladora sigue
> estando y es detectada.

Si no lo has cambiado en la BIOS, claro, sigue estando habilitado.
 
> Yo hice "lsmod | grep ahci". ¿No será que el módulo que se carga no
> tiene nada que ver con ese nombre? Si hago un "lsmod | grep ata" sí que
> me devuelve resultado.

No, no... el driver AHCI sólo se carga cuando tienes configurado en la 
BIOS una controladora SATA que permita configurarse en los modos 
habituales [ide/ata/legacy, achi, raid]. Al seleccionar "ahci" es cuando 
el kernel debería cagar ese módulo.

>>> A mí lo que me escama es que el servidor se quede trabado alguna vez
>>> unos segundos, incluso con los comandos más insignificantes.
>>> Posiblemente todos mis problema nacen de esto. Pero no tengo ni idea
>>> de a qué se debe.
> 
>> ¿No tienes nada en el "dmesg"?
> 
> No veo nada raro en él. En syslog veo que varnish tiene que matar
> procesos:
> 
> Child (19759) not responding to CLI, killing it.
> 
> Pero es bastante probable que esté relacionado con estas lagunas que
> sufre el servidor.

Eso es buena señal, los errores graves de disco suelen aparecer en el 
dmesg al igual que los errores en operaciones I/O, y si no ves nada es 
una buena señal.

>> Por cierto, la controladora también debe tener un registro (búfer)
>> interno, si lo tienes activado quizá tengas algún dato relevante.
> 
> Pero ahora no la estoy usando (el lunes incluso la deshabilitaré si
> tengo tiempo), y el problema sigue produciéndose. Yo creo que mi
> problema con el RAID era un efecto y no la razón de mis males.

Bueno, recuerda que no las estás usando pero sigues con el mismo driver 
(mtpsas), y si el problema está en el driver es como si no hubieras hecho 
nada.

Saludos,

-- 
Camaleón


Reply to: