SMART: Von LBA auf Datei schließen?

To: debian-user-german@lists.debian.org
Subject: SMART: Von LBA auf Datei schließen?
From: Spiro Trikaliotis <list-debian-user-german@spiro.trikaliotis.net>
Date: Thu, 21 Nov 2013 23:17:09 +0100
Message-id: <[🔎] 20131121221709.GE20590@hermes.local.trikaliotis.net>
Mail-followup-to: debian-user-german@lists.debian.org
Hallo,

es geht (wie so häufig hier auf der Liste) mal wieder um Probleme mit
der Festplatte, den Ausgaben von smartctl und der Problembehebung dazu.

Mein smartctl gibt mir einige Ausgaben, die mich etwas beunruhigen:

(Komplett: http://pastebin.com/BppRXAWK)

Zwar steht dort:

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED


Allerdings irritieren mich einige Werte:


ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   095   082   006    Pre-fail  Always       -       103993894
[...]
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       70
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       296
  7 Seek_Error_Rate         0x002f   075   060   030    Pre-fail  Always       -       39968541
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       4037
[...]
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       68
[...]
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       3030
[...]
196 Reallocated_Event_Count 0x0032   100   100   036    Old_age   Always       -       296
197 Current_Pending_Sector  0x0032   061   061   000    Old_age   Always       -       6432
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       6856

Man sieht also, dass die Festplatte relativ neu ist, aber 6432 pending
sectors hat. Das merke ich auch, immer wieder steht der Rechner ziemlich
lange. Dann gibt es immer Einträge wie den folgenden in /var/log/kern.log:

(Komplett: http://pastebin.com/TptR3UBx)

[...]
Nov 20 02:28:43 hermes kernel: [322931.439458] ata1.00: configured for UDMA/100
Nov 20 02:28:43 hermes kernel: [322931.439469] ata1: EH complete
Nov 20 02:28:46 hermes kernel: [322934.228515] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 20 02:28:46 hermes kernel: [322934.228529] ata1.00: irq_stat 0x40000008
Nov 20 02:28:46 hermes kernel: [322934.228532] ata1.00: failed command: READ FPDMA QUEUED
Nov 20 02:28:46 hermes kernel: [322934.228538] ata1.00: cmd 60/08:00:20:ab:53/00:00:9e:00:00/40 tag 0 ncq 4096 in
Nov 20 02:28:46 hermes kernel: [322934.228539]          res 41/40:00:20:ab:53/00:00:9e:00:00/00 Emask 0x409 (media error) <F>
Nov 20 02:28:46 hermes kernel: [322934.228542] ata1.00: status: { DRDY ERR }
Nov 20 02:28:46 hermes kernel: [322934.228544] ata1.00: error: { UNC }
Nov 20 02:28:46 hermes kernel: [322934.247727] ata1.00: configured for UDMA/100
Nov 20 02:28:46 hermes kernel: [322934.247744] ata1: EH complete
Nov 20 02:28:49 hermes kernel: [322937.037023] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 20 02:28:49 hermes kernel: [322937.037028] ata1.00: irq_stat 0x40000008
Nov 20 02:28:49 hermes kernel: [322937.037031] ata1.00: failed command: READ FPDMA QUEUED
Nov 20 02:28:49 hermes kernel: [322937.037037] ata1.00: cmd 60/08:00:20:ab:53/00:00:9e:00:00/40 tag 0 ncq 4096 in
Nov 20 02:28:49 hermes kernel: [322937.037039]          res 41/40:00:20:ab:53/00:00:9e:00:00/00 Emask 0x409 (media error) <F>
Nov 20 02:28:49 hermes kernel: [322937.037041] ata1.00: status: { DRDY ERR }
Nov 20 02:28:49 hermes kernel: [322937.037043] ata1.00: error: { UNC }
Nov 20 02:28:49 hermes kernel: [322937.056529] ata1.00: configured for UDMA/100
Nov 20 02:28:49 hermes kernel: [322937.056540] sd 0:0:0:0: [sda] Unhandled sense code
Nov 20 02:28:49 hermes kernel: [322937.056542] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 20 02:28:49 hermes kernel: [322937.056545] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Nov 20 02:28:49 hermes kernel: [322937.056549] Descriptor sense data with sense descriptors (in hex):
Nov 20 02:28:49 hermes kernel: [322937.056551]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Nov 20 02:28:49 hermes kernel: [322937.056559]         9e 53 ab 20 
Nov 20 02:28:49 hermes kernel: [322937.056562] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Nov 20 02:28:49 hermes kernel: [322937.056566] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 9e 53 ab 20 00 00 08 00
Nov 20 02:28:49 hermes kernel: [322937.056574] end_request: I/O error, dev sda, sector 2656283424
Nov 20 02:28:49 hermes kernel: [322937.056591] ata1: EH complete

Ich interpretiere es so, dass das System Probleme hat, Sektoren zu
lesen. Das paßt ja zu den Pending Sectors.

Ich habe mal die Selbsttests gestartet, und zwar zuerst den short und
dann den long. smartctl quittiert das mit:

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      4030         2656283424
# 2  Extended offline    Completed: read failure       90%      4012         2656283424
# 3  Extended offline    Completed: read failure       90%      4012         2656283424
# 4  Short offline       Completed: read failure       90%      4012         2656283424
# 5  Short offline       Completed without error       00%         3         -
# 6  Extended offline    Interrupted (host reset)      90%         1         -


Ich scheine also über 6000 defekte Blöcke zu haben, die ab Block
2656283424 beginnen.

Nun kenne ich das Bad Block Howto:
http://smartmontools.sourceforge.net/badblockhowto.html

Dort wird beschrieben, wie ich daraus erkenne, welche Dateien defekt
sind, und durch ein neu-Schreiben die Reallokation in Reservesektoren
erzwinge.

Mein Problem: Dort ist alles per "klassischem" MBR ohne LVM beschrieben,
ich habe aber eine GPT, auf der noch ein LVM liegt. Mit gparted sehe
ich, dass sie wie folgt aufgeteilt ist:

 /dev/sda1: fat32,   /boot/efi,  487 MiB
 /dev/sda2: ext2,    /boot,      244 MiB
 /dev/sda3: lvm2 pv,            1.82 TiB

Jetzt rächt es sich für mich, dass ich einfach die Vorgabe des
Installers (LVM) übernommen habe, ohne das zu kennen.

Wie kann ich nun rausbekommen, welche Dateien unter der LBA-Blocknummer
(und den folgenden, möglicherweise ebenso defekten) liegen? Ich habe bis
jetzt noch nicht einmal eine Möglichkeit gefunden, die GPT "blockweise"
ausgeben zu lassen, um zumindest den Abstand vom Beginn der Partition
/dev/sda3 bestimmen zu können. Von LVM habe ich genauso wenig Ahnung.

Über Hilfe (auch in Form sinnvoller Links; die Suche nach GPT under/oder LVM erschlägt
einen förmlich, hilfreiches für mein Problem habe ich aber nicht
herausdestillieren können) wäre ich sehr dankbar!

Zur Zeit kann ich kein Fehlverhalten des Rechners feststellen - ausser
eben den langen Wartezeiten ab und an, wenn der Rechner offenbar wieder
versucht, die o.g. Blöcke zu lesen. Dann hat man das Gefühl, dass das
System abgestürzt wäre. Nach langem Warten geht es dann aber irgendwann
wieder.

Beste Grüße,
   Spiro.

-- 
Spiro R. Trikaliotis
http://www.trikaliotis.net/
Reply to:
Follow-Ups:
- Re: SMART: Von LBA auf Datei schließen?
  - From: Christoph Johannes Kleine <JohannesKleine@gmx.de>
Prev by Date: Probleme mit Fernbedienung bei mplayer
Next by Date: Re: "module unix not found in modules.dep"
Previous by thread: Probleme mit Fernbedienung bei mplayer
Next by thread: Re: SMART: Von LBA auf Datei schließen?
Index(es):
- Date
- Thread