SMART: Von LBA auf Datei schließen?
Hallo,
es geht (wie so häufig hier auf der Liste) mal wieder um Probleme mit
der Festplatte, den Ausgaben von smartctl und der Problembehebung dazu.
Mein smartctl gibt mir einige Ausgaben, die mich etwas beunruhigen:
(Komplett: http://pastebin.com/BppRXAWK)
Zwar steht dort:
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Allerdings irritieren mich einige Werte:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 095 082 006 Pre-fail Always - 103993894
[...]
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 70
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 296
7 Seek_Error_Rate 0x002f 075 060 030 Pre-fail Always - 39968541
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 4037
[...]
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 68
[...]
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 3030
[...]
196 Reallocated_Event_Count 0x0032 100 100 036 Old_age Always - 296
197 Current_Pending_Sector 0x0032 061 061 000 Old_age Always - 6432
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 6856
Man sieht also, dass die Festplatte relativ neu ist, aber 6432 pending
sectors hat. Das merke ich auch, immer wieder steht der Rechner ziemlich
lange. Dann gibt es immer Einträge wie den folgenden in /var/log/kern.log:
(Komplett: http://pastebin.com/TptR3UBx)
[...]
Nov 20 02:28:43 hermes kernel: [322931.439458] ata1.00: configured for UDMA/100
Nov 20 02:28:43 hermes kernel: [322931.439469] ata1: EH complete
Nov 20 02:28:46 hermes kernel: [322934.228515] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 20 02:28:46 hermes kernel: [322934.228529] ata1.00: irq_stat 0x40000008
Nov 20 02:28:46 hermes kernel: [322934.228532] ata1.00: failed command: READ FPDMA QUEUED
Nov 20 02:28:46 hermes kernel: [322934.228538] ata1.00: cmd 60/08:00:20:ab:53/00:00:9e:00:00/40 tag 0 ncq 4096 in
Nov 20 02:28:46 hermes kernel: [322934.228539] res 41/40:00:20:ab:53/00:00:9e:00:00/00 Emask 0x409 (media error) <F>
Nov 20 02:28:46 hermes kernel: [322934.228542] ata1.00: status: { DRDY ERR }
Nov 20 02:28:46 hermes kernel: [322934.228544] ata1.00: error: { UNC }
Nov 20 02:28:46 hermes kernel: [322934.247727] ata1.00: configured for UDMA/100
Nov 20 02:28:46 hermes kernel: [322934.247744] ata1: EH complete
Nov 20 02:28:49 hermes kernel: [322937.037023] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 20 02:28:49 hermes kernel: [322937.037028] ata1.00: irq_stat 0x40000008
Nov 20 02:28:49 hermes kernel: [322937.037031] ata1.00: failed command: READ FPDMA QUEUED
Nov 20 02:28:49 hermes kernel: [322937.037037] ata1.00: cmd 60/08:00:20:ab:53/00:00:9e:00:00/40 tag 0 ncq 4096 in
Nov 20 02:28:49 hermes kernel: [322937.037039] res 41/40:00:20:ab:53/00:00:9e:00:00/00 Emask 0x409 (media error) <F>
Nov 20 02:28:49 hermes kernel: [322937.037041] ata1.00: status: { DRDY ERR }
Nov 20 02:28:49 hermes kernel: [322937.037043] ata1.00: error: { UNC }
Nov 20 02:28:49 hermes kernel: [322937.056529] ata1.00: configured for UDMA/100
Nov 20 02:28:49 hermes kernel: [322937.056540] sd 0:0:0:0: [sda] Unhandled sense code
Nov 20 02:28:49 hermes kernel: [322937.056542] sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 20 02:28:49 hermes kernel: [322937.056545] sd 0:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
Nov 20 02:28:49 hermes kernel: [322937.056549] Descriptor sense data with sense descriptors (in hex):
Nov 20 02:28:49 hermes kernel: [322937.056551] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Nov 20 02:28:49 hermes kernel: [322937.056559] 9e 53 ab 20
Nov 20 02:28:49 hermes kernel: [322937.056562] sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
Nov 20 02:28:49 hermes kernel: [322937.056566] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 9e 53 ab 20 00 00 08 00
Nov 20 02:28:49 hermes kernel: [322937.056574] end_request: I/O error, dev sda, sector 2656283424
Nov 20 02:28:49 hermes kernel: [322937.056591] ata1: EH complete
Ich interpretiere es so, dass das System Probleme hat, Sektoren zu
lesen. Das paßt ja zu den Pending Sectors.
Ich habe mal die Selbsttests gestartet, und zwar zuerst den short und
dann den long. smartctl quittiert das mit:
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 4030 2656283424
# 2 Extended offline Completed: read failure 90% 4012 2656283424
# 3 Extended offline Completed: read failure 90% 4012 2656283424
# 4 Short offline Completed: read failure 90% 4012 2656283424
# 5 Short offline Completed without error 00% 3 -
# 6 Extended offline Interrupted (host reset) 90% 1 -
Ich scheine also über 6000 defekte Blöcke zu haben, die ab Block
2656283424 beginnen.
Nun kenne ich das Bad Block Howto:
http://smartmontools.sourceforge.net/badblockhowto.html
Dort wird beschrieben, wie ich daraus erkenne, welche Dateien defekt
sind, und durch ein neu-Schreiben die Reallokation in Reservesektoren
erzwinge.
Mein Problem: Dort ist alles per "klassischem" MBR ohne LVM beschrieben,
ich habe aber eine GPT, auf der noch ein LVM liegt. Mit gparted sehe
ich, dass sie wie folgt aufgeteilt ist:
/dev/sda1: fat32, /boot/efi, 487 MiB
/dev/sda2: ext2, /boot, 244 MiB
/dev/sda3: lvm2 pv, 1.82 TiB
Jetzt rächt es sich für mich, dass ich einfach die Vorgabe des
Installers (LVM) übernommen habe, ohne das zu kennen.
Wie kann ich nun rausbekommen, welche Dateien unter der LBA-Blocknummer
(und den folgenden, möglicherweise ebenso defekten) liegen? Ich habe bis
jetzt noch nicht einmal eine Möglichkeit gefunden, die GPT "blockweise"
ausgeben zu lassen, um zumindest den Abstand vom Beginn der Partition
/dev/sda3 bestimmen zu können. Von LVM habe ich genauso wenig Ahnung.
Über Hilfe (auch in Form sinnvoller Links; die Suche nach GPT under/oder LVM erschlägt
einen förmlich, hilfreiches für mein Problem habe ich aber nicht
herausdestillieren können) wäre ich sehr dankbar!
Zur Zeit kann ich kein Fehlverhalten des Rechners feststellen - ausser
eben den langen Wartezeiten ab und an, wenn der Rechner offenbar wieder
versucht, die o.g. Blöcke zu lesen. Dann hat man das Gefühl, dass das
System abgestürzt wäre. Nach langem Warten geht es dann aber irgendwann
wieder.
Beste Grüße,
Spiro.
--
Spiro R. Trikaliotis
http://www.trikaliotis.net/
Reply to: