[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Frage input / output error



Am Montag 27 Oktober 2008 schrieb Tilo Schwarz:
> On Mon, 27 Oct 2008 14:55:18 +0100, Martin Steigerwald
>
> <Martin@lichtvoll.de> wrote:
> > Am Samstag 25 Oktober 2008 schrieb Tilo Schwarz:
> >> Hallo,
> >
> > Hi Tilo,
>
> [...]
>
> > UNC ist Uncorretable Error... ja, da würde ich die Platte tauschen.
> > Passt die Zeitangabe 166 days + 16 hours so einigermaßen zu dem
> > Zeitpunkt, wo Du den dd ausgeführt hast?
>
> Das hab ich mich auch schon gefragt.
>
> > Interessant ist auch, was in dmesg / syslog
> > steht, wenn dd den Fehler wirft... das Block Layer schreibt in der
> > Regel auch was über den Fehler raus.
>
> Da find ich zur fraglichen Zeit folgendes:
>
> Oct 25 14:35:12 dellschleppa kernel: [ 6741.194619]          res
> 51/01:00:62:5a:2d/00:00:00:00:00/e0 Emask 0x1 (device error)

höhö... libata ist da offenbar um einiges ausführlicher als das alte 
IDE-Treiber-System ;)

> Oct 25 14:35:26 dellschleppa kernel: [ 6754.796824] sd 0:0:0:0: [sda]
> Sense Key : Medium Error [current] [descriptor]

> Oct 25 14:35:26 dellschleppa kernel: [ 6754.796866] sd 0:0:0:0: [sda]
> Add. Sense: Address mark not found for data field

> Oct 25 14:35:42 dellschleppa kernel: [ 6763.150660]          res
> 51/01:00:62:5a:2d/00:00:00:00:00/e0 Emask 0x1 (device error)

> Oct 25 14:35:42 dellschleppa kernel: [ 6771.454074] sd 0:0:0:0: [sda]
> Add. Sense: Unrecovered read error - auto reallocate failed

Also ich bin ja kein Experte, aber das alles sieht mir gescheit nach 
Platte tauschen aus.

Wenn ich die Meldungen richtig interpretiere, hat das automatische 
Ummappen eines defekten Blockes nicht funktioniert.

Zudem hat die libata ja sogar noch versucht, die Verbindung zur Platte 
zurückzusetzen. Bevor Du die Platte tauschst, könntest Du es natürlich 
auch noch mal mit einem anderen Kabel versuchen. Doch wenn das defekt 
wäre, müsste es eigentlich unabhängig von bestimmten Blöcken Probleme 
geben.

> sda ist die interne Platte, eine externe über USB war zur gleichen Zeit
> auch noch dran.
>
> > Trigger mit smartctl -t long evtl. auch mal einen langen Selbsttest,
> > um sicher zu gehen.
>
> Wenn ich das richtig verstehe, gehört diese Ausgabe dazu:
>
> # smartctl -l selftest /dev/sda
> smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce
> Allen Home page is http://smartmontools.sourceforge.net/
>
> === START OF READ SMART DATA SECTION ===
> SMART Self-test log structure revision number 1
> Num  Test_Description    Status                  Remaining
> LifeTime(hours)  LBA_of_first_error
> # 1  Extended offline    Completed: read failure       90%
> 4020         2972258
> # 2  Extended offline    Completed: read failure       90%
> 4019         2972258
>
> > Was sagt smartctl -H? Ist SMART okay? Was sagt smartctl -a zu den
> > Plattenparametern?
>
> # smartctl -H /dev/sda
> smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce
> Allen Home page is http://smartmontools.sourceforge.net/
>
> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
>
> Meinst Du mit den Plattenparametern die da?
>
> SMART Attributes Data Structure revision number: 16
> Vendor Specific SMART Attributes with Thresholds:
> ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE     
> UPDATED WHEN_FAILED RAW_VALUE
>    1 Raw_Read_Error_Rate     0x000f   200   200   051    Pre-fail
> Always       -       78

Da meines ungefähren Wissens ein niedrigerer Wert schlechter ist, dürfte 
das noch okay sein.

>    3 Spin_Up_Time            0x0003   187   186   021    Pre-fail
> Always       -       1633
>    4 Start_Stop_Count        0x0032   099   099   000    Old_age
> Always       -       1137
>    5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail
> Always       -       0
>    7 Seek_Error_Rate         0x000e   100   253   051    Old_age
> Always       -       0

Wobei das offenbar aber nicht auf alle Attribute zutrifft... hier ist 253 
als WORST eingetragen und der aktuelle Wert ist 100. Demnach wäre der 
höhere Wert der schlechtere und 253 weit über dem Treshhold... allerdings 
ist das kein Fail-Attribut. Oder aber 253 ist bedeutet: Nicht 
initialisiert.... hier verlassen mich meine SMART-Kenntnisse und ich höre 
lieber mal mit dem Spekulieren auf. ;)

Wer das genauer weiß, melde sich bitte. Ansonsten schau doch bitte mal 
selbst. Im Linux User-Artikel-Archiv dürfte so ein Artikel über 
Smartmontools drin sein. Ansonsten halt die Manpage gucksoren.

>    9 Power_On_Hours          0x0032   095   095   000    Old_age
> Always       -       4019
>   10 Spin_Retry_Count        0x0012   100   100   051    Old_age
> Always       -       0
>   11 Calibration_Retry_Count 0x0012   100   100   051    Old_age
> Always       -       0
>   12 Power_Cycle_Count       0x0032   099   099   000    Old_age
> Always       -       1129
> 192 Power-Off_Retract_Count 0x0032   199   199   000    Old_age
> Always       -       1120
> 193 Load_Cycle_Count        0x0032   138   138   000    Old_age
> Always       -       187471
> 194 Temperature_Celsius     0x0022   086   077   000    Old_age
> Always       -       61

Hmmm, das scheint in der Tat für jeden Wert anders zu sein... hier ist 77 
WORST und 086 dürfte dann ja wieder besser sein...

Okay, ich übergebe an SMART-Experten ;). Es gibt zu den smartmontools aber 
eine eigene Mailingliste, da bekommst Du vielleicht besseren Rat...

Meine Schlußfolgerung lautet jedoch alleine aufgrund des syslog-Auszugs 
oben: Platte tauschen.

Ciao,
-- 
Martin 'Helios' Steigerwald - http://www.Lichtvoll.de
GPG: 03B0 0D6C 0040 0710 4AFA  B82F 991B EAAC A599 84C7

Attachment: signature.asc
Description: This is a digitally signed message part.


Reply to: