[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

mdadm-crash



Hallo zusammen,

gestern Nacht gegen 4 Uhr bekam ein Server Fehler im IO-Subsystem

....
n  9 06:27:56 Debian-40-etch-64-minimal kernel: Buffer I/O error on
device dm-6, logical
block 14549040
Jan  9 06:27:56 Debian-40-etch-64-minimal kernel: lost page write due to
I/O error on dm-6
Jan  9 06:27:56 Debian-40-etch-64-minimal kernel: scsi 0:0:0:0:
rejecting I/O to dead devi
ce
Jan  9 06:28:01 Debian-40-etch-64-minimal last message repeated 159
times
Jan  9 06:28:01 Debian-40-etch-64-minimal kernel: ata1.00: exception
Emask 0x0 SAct 0x1 SE
rr 0x0 action 0x2 frozen
Jan  9 06:28:01 Debian-40-etch-64-minimal kernel: ata1.00: tag 0 cmd
0x60 Emask 0x4 stat 0
x40 err 0x0 (timeout)
Jan  9 06:28:02 Debian-40-etch-64-minimal kernel: ata1: soft resetting
port
Jan  9 06:28:02 Debian-40-etch-64-minimal kernel: ata1: softreset failed
(1st FIS failed)
Jan  9 06:28:02 Debian-40-etch-64-minimal kernel: ata1: softreset
failed, retrying in 5 se
cs
Jan  9 06:28:03 Debian-40-etch-64-minimal kernel: scsi 0:0:0:0:
rejecting I/O to dead devi
ce
Jan  9 06:28:07 Debian-40-etch-64-minimal last message repeated 24 times
Jan  9 06:28:07 Debian-40-etch-64-minimal kernel: ata1: hard resetting
port
Jan  9 06:28:07 Debian-40-etch-64-minimal kernel: scsi 0:0:0:0:
rejecting I/O to dead devi
ce
Jan  9 06:28:14 Debian-40-etch-64-minimal last message repeated 79 times
Jan  9 06:28:15 Debian-40-etch-64-minimal kernel: ata1: port is slow to
respond, please be
patient
Jan  9 06:28:16 Debian-40-etch-64-minimal kernel: scsi 0:0:0:0:
rejecting I/O to dead devi
ce
Jan  9 06:28:33 Debian-40-etch-64-minimal last message repeated 117
times
Jan  9 06:28:38 Debian-40-etch-64-minimal kernel: ata1: port failed to
.....

sodass mdadm auch nicht mehr so richtig wollte.

cat /proc/mdstat 
Personalities : [raid0] [raid1] 
md2 : active raid1 sda3[0] sdb3[2](F)
      717880512 blocks [2/1] [U_]
      
md1 : active raid1 sda2[2](F) sdb2[1]
      12586816 blocks [2/1] [_U]
      
md0 : active raid1 sda1[2](F) sdb1[1]
      2104448 blocks [2/1] [_U]

sdb3, sda2 und sda1 sind scheinbar defekt - Plattenfehler gab es
allerdings nur auf sda, weswegen ich einen rebuild (bzw --add sdb3)
machen wollte, was partout nicht funktionieren wollte.

mdadm stieg immer bei 5% des rebuilds aus und begann von vorne, da von
sda nicht mehr ordentlich gelesen werden konnte. (UNRECOVERABLE
READ-ERROR...)

sda wurde ausgebaut und durch eine frische HDD ersetzt. md0 und md1
liessen sich problemlos rebuilden, da ja sdbX die "Master" (gesunde
Platte) waren. 

Nun muss ich allerdings md2 irgendwie rebuilden, da dies mein PV ist und
die Nutzdaten enthält.

Allerdings sieht das nun so aus:

# cat /proc/mdstat 
Personalities : [raid0] [raid1] 
md1 : active raid1 sda2[0] sdb2[1]
      12586816 blocks [2/2] [UU]
      
md0 : active raid1 sda1[0] sdb1[1]
      2104448 blocks [2/2] [UU]
      
unused devices: <none>

--> md2 fehlt

# mdadm --detail /dev/md2 
mdadm: md device /dev/md2 does not appear to be active.


# mdadm --examine /dev/md2
mdadm: No md superblock detected on /dev/md2.

# mdadm --examine /dev/sdb3
/dev/sdb3:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : 15698e4f:71833ea5:bcbdcba1:ff32d880
  Creation Time : Thu Sep  4 01:21:24 2008
     Raid Level : raid1
    Device Size : 717880512 (684.62 GiB 735.11 GB)
     Array Size : 717880512 (684.62 GiB 735.11 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2

    Update Time : Fri Jan  9 13:00:43 2009
          State : clean
 Active Devices : 1
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 1
       Checksum : aa6678fc - correct
         Events : 0.11972996


      Number   Major   Minor   RaidDevice State
this     2       8       19        2      spare   /dev/sdb3

   0     0       8        3        0      active sync   /dev/sda3
   1     1       0        0        1      faulty removed
   2     2       8       19        2      spare   /dev/sdb3


mdadm ist wohl der Meinung sdb3 sei eine Spare?!


Wie komm ich denn nun an mein md2? Komm ich noch an die Daten?

Backup ist leider gestern nacht auch nicht durchgelaufen, da sich beim
mdadm/HDD-crash lvm verabschiedet hatte und ich somit einigen
Datenverlust hätte, wenn ich nicht rebuilden kann?

Was kann man hier noch tun? Alte Platte wäre noch greifbar - scheint
aber nicht wirklich in Takt zu sein - Lese/Schreib/IO-Fehler.

Vielen Dank,

Thomas





Reply to: