[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Currently unreadable Sectors auf einer Platte eines RAID-1



On Thu, Dec 04, 2014 at 04:00:06PM +0100, Pierre Bernhardt wrote:
> > die Daten aus dem RAID synchron zu halten?
> Also den Raid zu testen sollge gehen mit:
> root@host:~# echo check >| /sys/block/md1/md/sync_action

Ich habe das mit diesem Befehl gemacht, sollte identisches Ergebnis
liefern:

/usr/share/mdadm/checkarray /dev/md5

Das lief dann auch 460min durch, zwischendurch immer geprüft mit
cat /proc/mdstat. Irgendwann gab es dann mal wirklich ewig lange
Fehlermeldungen im Syslog (das folgende ist nur ein Auszug von der
Stelle, wo die Fehlermeldung wechselte):

Dec  3 22:02:32 server kernel: [13014.473048] ata2.00: status: { DRDY ERR }
Dec  3 22:02:32 server kernel: [13014.473052] ata2.00: error: { UNC }
Dec  3 22:02:32 server kernel: [13014.473057] ata2.00: failed command: READ FPDMA QUEUED
Dec  3 22:02:32 server kernel: [13014.473067] ata2.00: cmd 60/80:e8:80:c8:dc/00:00:ad:00:00/40 tag 29 ncq 65536 in
Dec  3 22:02:32 server kernel: [13014.473067]          res 51/40:80:80:cd:dc/40:00:ad:00:00/40 Emask 0x9 (media error)
Dec  3 22:02:32 server kernel: [13014.473073] ata2.00: status: { DRDY ERR }
Dec  3 22:02:32 server kernel: [13014.473078] ata2.00: error: { UNC }
Dec  3 22:02:32 server kernel: [13014.473082] ata2.00: failed command: READ FPDMA QUEUED
Dec  3 22:02:32 server kernel: [13014.473093] ata2.00: cmd 60/80:f0:00:c9:dc/00:00:ad:00:00/40 tag 30 ncq 65536 in
Dec  3 22:02:32 server kernel: [13014.473093]          res 51/40:80:80:cd:dc/40:00:ad:00:00/40 Emask 0x9 (media error)
Dec  3 22:02:32 server kernel: [13014.473099] ata2.00: status: { DRDY ERR }
Dec  3 22:02:32 server kernel: [13014.473103] ata2.00: error: { UNC }
Dec  3 22:02:32 server kernel: [13014.473114] ata2: hard resetting link
Dec  3 22:02:32 server kernel: [13014.473118] ata2: nv: skipping hardreset on occupied port
Dec  3 22:02:32 server kernel: [13014.940054] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
Dec  3 22:02:32 server kernel: [13014.956395] ata2.00: configured for UDMA/133
Dec  3 22:02:32 server kernel: [13014.956457] sd 1:0:0:0: [sdb] Unhandled sense code
Dec  3 22:02:32 server kernel: [13014.956463] sd 1:0:0:0: [sdb]
Dec  3 22:02:32 server kernel: [13014.956468] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Dec  3 22:02:32 server kernel: [13014.956473] sd 1:0:0:0: [sdb]
Dec  3 22:02:32 server kernel: [13014.956477] Sense Key : Medium Error [current] [descriptor]
Dec  3 22:02:32 server kernel: [13014.956484] Descriptor sense data with sense descriptors (in hex):
Dec  3 22:02:32 server kernel: [13014.956487]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Dec  3 22:02:32 server kernel: [13014.956502]         ad dc cd 80
Dec  3 22:02:32 server kernel: [13014.956510] sd 1:0:0:0: [sdb]
Dec  3 22:02:32 server kernel: [13014.956517] Add. Sense: Unrecovered read error - auto reallocate failed
Dec  3 22:02:32 server kernel: [13014.956522] sd 1:0:0:0: [sdb] CDB:
Dec  3 22:02:32 server kernel: [13014.956526] Read(16): 88 00 00 00 00 00 ad dc c9 80 00 00 00 80 00 00
Dec  3 22:02:32 server kernel: [13014.956544] end_request: I/O error, dev sdb, sector 2916927872
Dec  3 22:02:32 server kernel: [13014.956597] sd 1:0:0:0: [sdb] Unhandled sense code
Dec  3 22:02:32 server kernel: [13014.956602] sd 1:0:0:0: [sdb]
Dec  3 22:02:32 server kernel: [13014.956605] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Dec  3 22:02:32 server kernel: [13014.956610] sd 1:0:0:0: [sdb]
Dec  3 22:02:32 server kernel: [13014.956613] Sense Key : Medium Error [current] [descriptor]
Dec  3 22:02:32 server kernel: [13014.956617] Descriptor sense data with sense descriptors (in hex):
Dec  3 22:02:32 server kernel: [13014.956619]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Dec  3 22:02:32 server kernel: [13014.956634]         ad dc cd 80
Dec  3 22:02:32 server kernel: [13014.956641] sd 1:0:0:0: [sdb]
Dec  3 22:02:32 server kernel: [13014.956645] Add. Sense: Unrecovered read error - auto reallocate failed
Dec  3 22:02:32 server kernel: [13014.956650] sd 1:0:0:0: [sdb] CDB:
Dec  3 22:02:32 server kernel: [13014.956652] Read(16): 88 00 00 00 00 00 ad dc ca 00 00 00 00 80 00 00
Dec  3 22:02:32 server kernel: [13014.956668] end_request: I/O error, dev sdb, sector 2916928000

Das Array sieht jetzt laut mdstat gut aus (sah es allerdings vorher
auch), checkarray hat noch einige Male Meldungen a la Rebuild22 oder
Rebuild80 ausgespuckt, aber das war's irgendwie. Die Platte hat die
folgenden zwei Counter um einen raufgezählt:

  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail Always       -       1
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age  Always       -       1

und noch die folgende Fehlermeldung in smartctl -a ausgespuckt:
SMART Error Log Version: 1
ATA Error Count: 1
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 6639 hours (276 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 f8 be dc 0d  Error: UNC at LBA = 0x0ddcbef8 = 232570616

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 80 40 80 cd dc 40 08      03:36:06.356  READ FPDMA QUEUED
  60 80 38 00 cd dc 40 08      03:36:06.356  READ FPDMA QUEUED
  60 80 30 80 cc dc 40 08      03:36:06.356  READ FPDMA QUEUED
  60 80 28 00 cc dc 40 08      03:36:06.356  READ FPDMA QUEUED
  60 80 20 80 cb dc 40 08      03:36:06.356  READ FPDMA QUEUED


Ich schlußfolgere daraus, daß im Endergebnis die Platte weiterhin
benutzbar ist und die Daten wieder integer sind, oder etwa nicht?

Das einzige, was ich nicht deuten kann, ist dieses:

> Wenn es probleme gibt müsste der folgende Befehl was anderes melden als 0:
> root@host:~# cat /sys/block/md1/md/mismatch_cnt

Der meldet mir:
# cat /sys/block/md5/md/mismatch_cnt
3968

Was bedeutet das jetzt?

> Was ich noch nie machen musste war ein repair:
> root@host:~# echo repair >| /sys/block/md1/md/sync_action

Und was würde das machen?

> Ich meine ich habe das alles aus der Raid-HowTo.

Welches genau? Link?

> Allerdings würde ich mir die smart-Werte der einzelnen Platten mal genauer ansehen
> und ggf. die Platte die ein Problem hat raus werfen.

Da bin ich momentan noch ganz entspannt, mit einem reallocated sector.

ciao, Dirk


Reply to: