[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Una de discs durs





On Sun, 21 Feb 2021 at 10:18, Toni Mas Soler <antomassol@protonmail.com> wrote:
Hola. A veure si algú m'aporta la llum.
Molt sovint em trobo amb aquest problema:

[539698.662250] ata2.00: exception Emask 0x10 SAct 0x0 SErr 0x1950000 action 0xe frozen
[539698.662369] ata2: SError: { PHYRdyChg CommWake Dispar LinkSeq TrStaTrns }
[539698.662466] ata2.00: failed command: READ DMA EXT
[539698.662542] ata2.00: cmd 25/00:00:00:88:b1/00:01:0a:01:00/e0 tag 0 dma 131072 in
                         res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x14 (ATA bus error)
[539698.662747] ata2.00: status: { DRDY }
[539698.662808] ata2: hard resetting link
[539698.662811] ata2: nv: skipping hardreset on occupied port
[539699.534259] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[539699.557332] ata2.00: configured for UDMA/133
[539699.557365] sd 1:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[539699.557370] sd 1:0:0:0: [sdb] tag#0 Sense Key : Illegal Request [current]
[539699.557376] sd 1:0:0:0: [sdb] tag#0 Add. Sense: Unaligned write command
[539699.557383] sd 1:0:0:0: [sdb] tag#0 CDB: Read(16) 88 00 00 00 00 01 0a b1 88 00 00 00 01 00 00 00
[539699.557387] print_req_error: I/O error, dev sdb, sector 4474374144
[539699.557529] ata2: EH complete

Tinc 2 discos muntats amb RAID1 amb mdadm.
El cas és que m'ha començat a aparèixer des que l'altre disc va haver-hi una falla general (suposadament tampoc culpa del disc ja que canviat el cable SATA l'altre disc va tornar a funcionar com sempre).

Després del canvi de cable he provat de permutar i substituir cables i permutar ports i no hi ha manera que desapareguin els missatges (més freqüents com més feina se li exigeix al dsic).

Teniu alguna idea (abans de canviar el disc)?

Informació del SMART:
  1
  2 smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-13-amd64] (local build)
  3 Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
  4
  5 === START OF INFORMATION SECTION ===
  6 Model Family:     Seagate IronWolf
  7 Device Model:     ST3000VN007-2AH16M
  8 Serial Number:    ZDH7AQZ6
  9 LU WWN Device Id: 5 000c50 0b69174f5
10 Firmware Version: SC60
11 User Capacity:    3.000.592.982.016 bytes [3,00 TB]
12 Sector Sizes:     512 bytes logical, 4096 bytes physical
13 Rotation Rate:    5980 rpm
14 Form Factor:      3.5 inches
15 Device is:        In smartctl database [for details use: -P show]
16 ATA Version is:   ACS-3 T13/2161-D revision 5
17 SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
18 Local Time is:    Thu Jan 28 10:00:01 2021 CET
19 SMART support is: Available - device has SMART capability.
20 SMART support is: Enabled
21
22 === START OF READ SMART DATA SECTION ===
23 SMART overall-health self-assessment test result: PASSED
24
25 General SMART Values:
26 Offline data collection status:  (0x00) Offline data collection activity
27                                         was never started.
28                                         Auto Offline Data Collection: Disabled.
29 Self-test execution status:      (   0) The previous self-test routine completed
30                                         without error or no self-test has ever
31                                         been run.
32 Total time to complete Offline
33 data collection:                (  591) seconds.
34 Offline data collection
35 capabilities:                    (0x73) SMART execute Offline immediate.
36                                         Auto Offline data collection on/off support.
37                                         Suspend Offline collection upon new
38                                         command.
39                                         No Offline surface scan supported.
40                                         Self-test supported.
41                                         Conveyance Self-test supported.
42                                         Selective Self-test supported.
43 SMART capabilities:            (0x0003) Saves SMART data before entering
44                                         power-saving mode.
45                                         Supports SMART auto save timer.
46 Error logging capability:        (0x01) Error logging supported.
47                                         General Purpose Logging supported.
48 Short self-test routine
49 recommended polling time:        (   1) minutes.
50 Extended self-test routine
51 recommended polling time:        ( 502) minutes.
52 Conveyance self-test routine
53 recommended polling time:        (   2) minutes.
54 SCT capabilities:              (0x50bd) SCT Status supported.
55                                         SCT Error Recovery Control supported.
56                                         SCT Feature Control supported.
57                                         SCT Data Table supported.
58
59 SMART Attributes Data Structure revision number: 10
60 Vendor Specific SMART Attributes with Thresholds:
61 ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
62   1 Raw_Read_Error_Rate     0x000f   080   064   044    Pre-fail  Always       -       97510545
63   3 Spin_Up_Time            0x0003   097   095   000    Pre-fail  Always       -       0
64   4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       68
65   5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
66   7 Seek_Error_Rate         0x000f   090   060   045    Pre-fail  Always       -       946331866
67   9 Power_On_Hours          0x0032   089   089   000    Old_age   Always       -       9819 (198 153 0)
68  10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
69  12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       26
70 184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
71 187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
72 188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
73 189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
74 190 Airflow_Temperature_Cel 0x0022   066   056   040    Old_age   Always       -       34 (Min/Max 34/35)
75 191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
76 192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       10
77 193 Load_Cycle_Count        0x0032   097   097   000    Old_age   Always       -       6137
78 194 Temperature_Celsius     0x0022   034   044   000    Old_age   Always       -       34 (0 20 0 0 0)
79 197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
80 198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
81 199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
82 240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       9739 (200 43 0)
83 241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       10045062934
84 242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       77949777828
85
86 SMART Error Log Version: 1
87 No Errors Logged
88
89 SMART Self-test log structure revision number 1
90 Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
91 # 1  Extended offline    Completed without error       00%      9490         -
92 # 2  Extended offline    Completed without error       00%      8748         -
93 # 3  Extended offline    Completed without error       00%      8027         -
94 # 4  Extended offline    Completed without error       00%      7310         -
95 # 5  Extended offline    Completed without error       00%      6646         -
96 # 6  Extended offline    Completed without error       00%      5903         -
97 # 7  Extended offline    Completed without error       00%      5159         -
98 # 8  Extended offline    Completed without error       00%      4439         -
99 # 9  Extended offline    Completed without error       00%      3697         -
100 #10  Extended offline    Completed without error       00%      2982         -
101 #11  Extended offline    Completed without error       00%      2249         -
102 #12  Extended offline    Interrupted (host reset)      00%      1547         -
103 #13  Extended offline    Completed without error       00%       809         -
104 #14  Extended offline    Completed without error       00%        83         -
105
106 SMART Selective self-test log data structure revision number 1
107  SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
108     1        0        0  Not_testing
109     2        0        0  Not_testing
110     3        0        0  Not_testing
111     4        0        0  Not_testing
112     5        0        0  Not_testing
113 Selective self-test flags (0x0):
114   After scanning selected spans, do NOT read-scan remainder of disk.
115 If Selective self-test is pending on power-up, resume after 0 minute delay.

Toni Mas
GPG 3F42A21D84D7E950

Sent with ProtonMail Secure Email.

‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐
En divendres 12 de febrer de 2021 a les 10:10, Josep Lladonosa <jlladono@gmail.com> va escriure:

> On Fri, 12 Feb 2021 at 09:49, Joan <arbocenc@calbasi.net> wrote:
>
> > El Sun, 3 Jan 2021 09:29:35 +0100
> > Josep Lladonosa <jlladono@gmail.com> va escriure:
> >
> > > Hola, Joan,
> > >
> > >
> > > Que no sigui cosa del cable SATA.
> > > A la feina hem tingut experiències similars i canviant-lo s'ha resolt.
> >
> > Per cert, després de canviar el cable SATA ja no ha tornat a succeir la
> > "corrupció"... O sigui, dono per bona l'explicació que era el cable
> > SATA.
> >
> > I t'agraeixo molt, Josep, que apuntessis en aquesta direcció...
> >
> > Pd.: sembla mentida que el que pugui fallar sigui un element estàtic
> > com un cbale... O que aquest comenci a fallar "un bon dia"...
>
> Bé, els cables en si no acostumen a fallar si no hi ha una interrupció en el coure.
> Per diverses experiències el que puc dir és que són els connectors entre cable i altres elements (placa base, disc dur) que fallen. El plàstic es degrada per la calor... i molt més en cas de pujades de temperatura i refredaments. Tot això afecta a la interconnexió del coure del connector del mateix cable i l'altre element on resta connectat. Si l'ambient on es troba la màquina és "brut", també hi pot haver tema de brutícia (greix, pols) entre coures...
>
> També s'aplica als ventiladors, per exemple.
>
> És llei de vida dels materials: metall i plàstic no són flors i violes. ;-)
>  
>
> > >
> > > La fiabilitat dels discs durs és poca, sempre és recomanable tenir
> > > còpies de seguretat i fer-los treballar per parelles, en raid 1, per
> > > exemple.
> > >
> > > Cada fabricant indica la seva garantia.
> > > Per a mi, els pitjors, Seagate. Els millors, Hitachi (HGST que crec
> > > que és de Western Digital, ara, i que també està bé).
> > >
> > > Bon any,
> > > Josep
> > >
> > > El dg., 3 de gen. 2021, 9:01, Joan <arbocenc@calbasi.net> va escriure:
> > >
> > > > El problema que tinc m'ha passat dugues vegades en dugues setmanes,
> > > > i tinc dubtes de si és un tema físic del disc (un disc SATA de 4Tb)
> > > > no massa vell, de potser un parell d'anys, o un problema del soft
> > > > que "desgabella" el disc
> > > >
> > > > És un disc secundari (el sistema el tinc en un SSD) a on guardo
> > > > videos, fotos, etc. Un dels meus sospitosos com a causa de tot
> > > > plegat podria ser l'amule.
> > > >
> > > > Bé, la qüestió és que quan arrenco el sistema la cosa va malament, i
> > > > queda en mode d'emergència, perquè detecta un error:
> > > >
> > > > de gen. 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: Inode
> > > > 38666373 has an invalid extent node (blk 154697780, lblk 0) de gen.
> > > > 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: UNEXPECTED
> > > > INCONSISTENCY; RUN fsck MANUALLY. de gen. 02 16:21:12 pc2019
> > > > systemd-fsck[502]:         (i.e., without -a or -p options) de gen.
> > > > 02 16:21:12 pc2019 systemd-fsck[430]: fsck failed with exit status
> > > > 4. de gen. 02 16:21:12 pc2019 systemd-fsck[430]: Running request
> > > > emergency.target/start/replace de gen. 02 16:21:12 pc2019
> > > > systemd[1]: systemd-fsck@dev-disk-by
> > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service:
> > > > Main process exited, code=exited, status=1/FAILURE de gen. 02
> > > > 16:21:12 pc2019 systemd[1]:
> > > > systemd-fsck@dev-disk-by
> > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service:
> > > > Failed with result 'exit-code'. de gen. 02 16:21:12 pc2019
> > > > systemd[1]: Failed to start File System Check on
> > > > /dev/disk/by-uuid/eabfd9a3-1b1f-4144-a9d3-d514566fa3fb. de gen. 02
> > > > 16:21:12 pc2019 systemd[1]: Dependency failed for /media/magatzem.
> > > > de gen. 02 16:21:12 pc2019 systemd[1]: Dependency failed for Local
> > > > File Systems. de gen. 02 16:21:12 pc2019 systemd[1]:
> > > > local-fs.target: Job local-fs.target/start failed with result
> > > > 'dependency'. de gen. 02 16:21:12 pc2019 systemd[1]:
> > > > local-fs.target: Triggering _OnFailure_= dependencies. de gen. 02
> > > > 16:21:12 pc2019 systemd[1]: media-magatzem.mount: Job
> > > > media-magatzem.mount/start failed with result 'dependency'.
> > > >
> > > > I a mi em mostra aquesta pantalla:
> > > >
> > > >
> > > > https://upload.disroot.org/r/APnYtXLB#NArCJjbVYVzxd9Hui4K9xb9xhkHzk9i1vE++Qf8BQQA=
> > > >
> > > > Llavors jo per sol·lucionar-ho gaig un e2fsck -c /dev/sdb1
> > > >
> > > > Que em dona aquestes pantalles (les resumeixo, perquè bàsicament
> > > > son 20 minuts de anar dient "yes" a tot el que em proposa, després
> > > > de la revisió que dura unes 8 hores o més:
> > > >
> > > >
> > > > https://upload.disroot.org/r/kRLsL2RX#bF9doWYguCMHAvj3APaJNb+GbUBq9zCX2mdrkLJhMAQ=
> > > >
> > > > https://upload.disroot.org/r/sYqhJfcy#Wv3pVBo0OuvfosT/i1LfCRx+6sTWwSkpWGDJIl4uTkI=
> > > >
> > > > https://upload.disroot.org/r/UTbxj19F#u5TA97h7ykB7KFj58OSPhgFLqwqFBSv00nHAQ8FoPpU=
> > > >
> > > > Llavors, les meves preguntes:
> > > >
> > > > 1) Us sembla que és un fallo de hard (el disc comença a fer el
> > > > tonto, amb només 15 mesos), i ja em puc espabilar a comprar-ne un
> > > > altra i fer-li un clonezilla?
> > > >
> > > > 2) Podria ser un problema originat pel software? (en aquest sentit
> > > > no sé si actualitzar la meva Debian Testing, que no actualitzo en
> > > > general de cop, sinó a bocinets).
> > > >
> > > > 3) No sé si al disc secundari és fa un fsck (o com es digui). Allò
> > > > que es fa al primari cada nosequantes arrencades. Diria que no, i
> > > > que és una opció configurable al fstab. El meu fstab és aquest:
> > > >
> > > > UUID=... /               ext4    errors=remount-ro 0       1
> > > > # /home was on /dev/sdb6 during installation
> > > > UUID=... /home           ext4    defaults        0       2
> > > > # swap was on /dev/sdb5 during installation
> > > > UUID=...            swap    sw              0       0
> > > > # Segon disc dur 4Tb
> > > > UUID=e... /media/magatzem           ext4    defaults        0
> > > > 2
> > > >
> > > > (de fet, ara que hi penso, no sé si es fa el fsck a la partició
> > > > /home, tampoc). Diria que això te a veure amb el darrer nombre de
> > > > la columna, però ara he vist que systemd s'ho munta diferent i
> > > > només distingeix el valor zero (o buit), i la resta:
> > > >
> > > > https://unix.stackexchange.com/a/248578
> > > >
> > > > I per tant ja no sé quan ni com es fan el txequejos.
> > > >
> > > > 4) Un colega em va comentar que ell força un test SMART via script,
> > > > no sé si a l'arrencar... No sé si això és una bona opció... Teniu
> > > > algun suggeriment al respecte, per vetllar per la bona salut dels
> > > > discs (assumint que si el disc comença a fallar per la seva
> > > > obsolescència programada, no hi ha res a fer).
> > > >
> > > > 5) Per cert, sabeu quina garantia tenen, els discos durs? I, en cas
> > > > de comprar-ne un de nou, si n'hi ha que donin més fiabilitat?
> > > >
> > > > Fins ara!
> > > >
> > > > --
> > > > Joan Cervan i Andreu
> > > > http://personal.calbasi.net
> > > >
> > > > "El meu paper no és transformar el món ni l'home sinó, potser, el de
> > > > ser útil, des del meu lloc, als pocs valors sense els quals un món
> > > > no val la pena viure'l" A. Camus
> > > >
> > > > i pels que teniu fe:
> > > > "Déu no és la Veritat, la Veritat és Déu"
> > > > Gandhi
> > > >
> > > > 
> >
> > --
> > Joan Cervan i Andreu
> > http://personal.calbasi.net
> >
> > "El meu paper no és transformar el món ni l'home sinó, potser, el de
> > ser útil, des del meu lloc, als pocs valors sense els quals un món no
> > val la pena viure'l" A. Camus
> >
> > i pels que teniu fe:
> > "Déu no és la Veritat, la Veritat és Déu"
> > Gandhi
>
> --
> --
> Salutacions...Josep
> --



Demanes per alguna idea abans de canviar disc. Jo provaria a iniciar la màquina amb un nucli diferent. M'he trobat amb màquines que fallaven i era per alguna cosa dels controladors de disc dur  (o alguna altra cosa relacionada) del nucli. Canviant de versió es resolien els errors de disc...

SALUT!
Josep

--
--
Salutacions...Josep
--

Reply to: