[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Una de discs durs



Responc entre línies i tallant part del missatge.

El 3/1/21 a les 9:01, Joan ha escrit:
[...]

Llavors, les meves preguntes:

1) Us sembla que és un fallo de hard (el disc comença a fer el tonto,
amb només 15 mesos), i ja em puc espabilar a comprar-ne un altra i
fer-li un clonezilla?

Una forma de determinar si és problema de maquinari seria fent servir badblocks, no per marcar els sectors defectuosos sinó simplement per saber si n'hi ha. En el teu cas, com que el disc és molt gran, necessitaries passar un paràmetre addicional. Pots provar això:

badblocks -b 4096 -e 1 -s -v /dev/XXXX

En detall: -b 4096 perquè el disc és gran (sense ell es nega a funcionar), -e 1 per parar al primer error que trobi, -s per tenir alguna cosa a mirar mentre va fent i -v perquè xerri una mica més.

Això sí, trigarà ESTONA (per a un disc de 4TB podria arribar a les 24 hores) i mentrestant el disc hauria d'estar desmuntat.

2) Podria ser un problema originat pel software? (en aquest sentit no
sé si actualitzar la meva Debian Testing, que no actualitzo en general
de cop, sinó a bocinets).

El mal (si és que es tracta d'un error de programari, que seria estrany) ja està fet, a més si com dius el problema el tens en un disc secundari en principi actualitzar hauria de ser més o menys neutre. Potser l'única excepció seria si tens muntat /home allà i a l'arrencar de nou algun programa actualitzat comenci una migració de dades que compliqui encara més el tema.

Però vaja, per la meva experiència la causa més comuna d'errades massives de disc seria una apagada intempestiva, com quan se'n va la llum o desendolles el disc, si és extern, mentre encara treballa. Les errades físiques de disc solen ser més puntuals, a menys que el disc ja portés temps amb problemes.

3) No sé si al disc secundari és fa un fsck (o com es digui). Allò que
es fa al primari cada nosequantes arrencades. Diria que no, i que és
una opció configurable al fstab. El meu fstab és aquest:

UUID=... /               ext4    errors=remount-ro 0       1
# /home was on /dev/sdb6 during installation
UUID=... /home           ext4    defaults        0       2
# swap was on /dev/sdb5 during installation
UUID=...            swap    sw              0       0
# Segon disc dur 4Tb
UUID=e... /media/magatzem           ext4    defaults        0       2

(de fet, ara que hi penso, no sé si es fa el fsck a la partició /home,
tampoc). Diria que això te a veure amb el darrer nombre de la columna,
però ara he vist que systemd s'ho munta diferent i només distingeix el
valor zero (o buit), i la resta:

https://unix.stackexchange.com/a/248578

I per tant ja no sé quan ni com es fan el txequejos.

El que determina el 1 o el 2 de l'última columna de fstab és en quin moment de l'arrencada cridar el fsck. Generalment es posa un 1 al sistema arrel (aleshores fsck s'executa des del ramdisk de l'init) i un 2 per a la resta (fent servir, aquest cop, el fsck del sistema arrel). La idea era evitar que un fsck sobre un disc amb problemes fos el responsable de comprovar-lo.

El fet de determinar, per a sistemes ext*, si passar efectivament o no un fsck ve determinat per dues condicions: primer, si el sistema s'ha desmuntat incorrectament, queda un indicador al disc i quan el detecta fa la comprovació. Si no és el cas, el sistema de fitxers registra tant els dies que han passat com els cops que s'ha muntat des de l'últim fsck, i quan algun d'aquests dos valors supera un límit configurable aleshores fa la comprovació.

Per mirar tant quan fa que s'ha passat un fsck com la programació dels límits pots fer servir la comanda següent:

dumpe2fs -h /dev/XXX

Per exemple, entre altres línies treu:

Mount count:              10
Maximum mount count:      25
Last checked:             Sun Oct 18 10:11:18 2020
Check interval:           7776000 (3 months)
Next check after:         Sat Jan 16 09:11:18 2021

En aquest cas, he muntat el disc 10 vegades des de l'última comprovació, que es va fer el 18 d'octubre passat, i està programat perquè faci la següent comprovació després de muntar el disc 25 cops (o sigui, d'aquí 15 muntades més) o al cap de 3 mesos (el 16 de gener), el que succeeixi abans.

Per ajustar els valors dels marges pots fer servir tune2fs, passant -c i un número de recompte de muntatges (25) o -i i un marge de temps en dies (90).

Tingues present, però, que un valor 0 al fstab per a les comprovacions pot fer i farà que aquests límits no s'apliquin de forma automàtica sinó quan facis tu manualment un fsck, motiu pel qual a vegades llançant-lo manualment (sense -f) no fa res i a vegades ho fa tot: els criteris per decidir-ho són els mateixos.

4) Un colega em va comentar que ell força un test SMART via script, no
sé si a l'arrencar... No sé si això és una bona opció... Teniu algun
suggeriment al respecte, per vetllar per la bona salut dels discs
(assumint que si el disc comença a fallar per la seva obsolescència
programada, no hi ha res a fer).

El paquet smartmontools és el que proveeix aquestes eines de monitorització. No tots els discs les suporten: els interns generalment sí, els externs depèn. Pots treure dades amb smartctl -a /dev/XXX (aquí cal indicar el disc físic i no la partició), però saber interpretar-les ja és una altra història.

Possiblement el valor més indicatiu de la salut del disc sigui "Offline_Uncorrectable", que si mostra un valor diferent de 0 vol dir que el disc ja no ha pogut escriure en algun sector. Ara bé, quan aquest valor ja no és zero sol ser massa tard...

5) Per cert, sabeu quina garantia tenen, els discos durs? I, en cas de
comprar-ne un de nou, si n'hi ha que donin més fiabilitat?
La normativa europea dicta un mínim de 2 anys de garantia, però consulta la documentació del disc, si encara la conserves, per si el fabricant és més benèvol. Et caldrà el tiquet o factura de compra original, però; metadades del disc no s'accepten, tant per ser manipulables com per que podrien ser il·legibles en funció dels danys.


Reply to: