[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

kann sich jemand erklären warum beide Festplatten auf dem selben Sector einen Fehler haben?



Hallo Debian Freunde,

kann sich jemand erklären was genau "lost interrupt (Status 0x50)" bedeutet bzw. wo ich mich schlau lesen kann im Internet steht viel aber eine Erklärung was die einzelnen Logmeldungen überhaupt bedeuten habe ich nicht gefunden.


Nun meine Fragen evtl. kann jemand diese beantworten oder einen Hinweis geben wo ich diese Info nachlesen kann:
Was bedeutet der Status 0x50 beim lost Interrupt 1. Zeile wie kommt dieser zu Stande?
Wie groß sind die Metadaten eines Linux Software RAID 1?
Was für Daten
könnten auf dem Sector 25141733 liegen? Sind es die Metadaten vom RAID oder schon vom LVM?

Hardware Info:
2 baugleiche Server, mit jeweils baugleichen Festplatten und mit FAI baugleich installiert.

Als OS wird Debian Linux Version 6.0.7 mit dem Xen Kernel verwendet.
uname -r
2.6.32-5-xen-amd64

DRBD und LVM für den XEN-Gäste.

Auf allen 4 Festplatten habe ich in den vergangenen Tagen die gleiche Fehlermeldung beobachtet, es ist jedesmal der selbe Sector. Die 3 von 4 Festplatten sind neuen Austauschfestplatten welche seit dem WoEn verbaut wurden. Es ist zwar möglich das die Festplatten defekt sind aber sehr unwahrscheinlich weil es jedes mal der selbe Sektor ist. Die S-ATA Kabel sind auch ausgewechselt worden.

grep "I/O error" /var/log/*
/var/log/kern.log:May  5 22:58:33 lxhs110a kernel: [156062.572522] end_request: I/O error, dev sdb, sector 25141733
/var/log/kern.log:May  5 22:58:33 lxhs110a kernel: [156062.636004] end_request: I/O error, dev sda, sector 25141733
/var/log/kern.log:May  7 03:14:18 lxhs110a kernel: [257807.626851] end_request: I/O error, dev sdb, sector 25141733
/var/log/kern.log:May  7 19:39:58 lxhs110a kernel: [316947.560831] end_request: I/O error, dev sdb, sector 25141733
/var/log/syslog.1:May  7 19:39:58 lxhs110a kernel: [316947.560831] end_request: I/O error, dev sdb, sector 25141733

grep "I/O error" /var/log/*
/var/log/kern.log:May  7 19:15:12 lxhs110b kernel: [315435.580027] end_request: I/O error, dev sda, sector 25141733
/var/log/kern.log:May  7 19:15:12 lxhs110b kernel: [315435.588144] end_request: I/O error, dev sdb, sector 25141733

Nun frage ich mich was auf diesem Sector
25141733, liegt? Die 4. Partition beginnt mit dem Sector 25141725, und wird für /dev/md2 als RAID1 verwendet. Möglich das hier noch Metadaten vom RAID liegen. Das Device /dev/md2 wird als PV für das LVM verwendet.

Der Angeblich defekte Sector
25141733 liegt also sehr zu beginn der 4. Partition.

fdisk -lu /dev/sdb

Disk /dev/sdb: 750.2 GB, 750156374016 bytes
255 heads, 63 sectors/track, 91201 cylinders, total 1465149168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0003f32f

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1   *          63    10474379     5237158+  fd  Linux raid autodetect
/dev/sdb2        10474380    18860309     4192965   82  Linux swap / Solaris
/dev/sdb3        18860310    25141724     3140707+  fd  Linux raid autodetect
/dev/sdb4        25141725  1465144064   720001170   fd  Linux raid autodetect



Der Komplette Auszug aus dem Logfile lautet:
May  5 22:58:32 lxhs110a kernel: [156061.812045] ata2: lost interrupt (Status 0x50)
May  5 22:58:32 lxhs110a kernel: [156061.812061] ata2: exception Emask 0x10 SAct 0x0 SErr 0x44050000 action 0xf
May  5 22:58:32 lxhs110a kernel: [156061.812105] ata2: SError: { PHYRdyChg CommWake DevExch }
May  5 22:58:32 lxhs110a kernel: [156061.812145] ata2: hard resetting link
May  5 22:58:32 lxhs110a kernel: [156061.812154] ata1: lost interrupt (Status 0x50)
May  5 22:58:32 lxhs110a kernel: [156061.812164] ata1: exception Emask 0x10 SAct 0x0 SErr 0x44050000 action 0xf
May  5 22:58:32 lxhs110a kernel: [156061.812203] ata1: SError: { PHYRdyChg CommWake DevExch }
May  5 22:58:32 lxhs110a kernel: [156061.812241] ata1: hard resetting link
May  5 22:58:33 lxhs110a kernel: [156062.536048] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
May  5 22:58:33 lxhs110a kernel: [156062.536203] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
May  5 22:58:33 lxhs110a kernel: [156062.561071] ata2.00: configured for UDMA/133
May  5 22:58:33 lxhs110a kernel: [156062.561097] ata2: EH complete
May  5 22:58:33 lxhs110a kernel: [156062.568968] ata1.00: configured for UDMA/133
May  5 22:58:33 lxhs110a kernel: [156062.568978] ata1: EH complete
May  5 22:58:33 lxhs110a kernel: [156062.572522] end_request: I/O error, dev sdb, sector 25141733
May  5 22:58:33 lxhs110a kernel: [156062.572569] md: super_written gets error=-5, uptodate=0
May  5 22:58:33 lxhs110a kernel: [156062.572574] raid1: Disk failure on sdb4, disabling device.
May  5 22:58:33 lxhs110a kernel: [156062.572576] raid1: Operation continuing on 1 devices.
May  5 22:58:33 lxhs110a kernel: [156062.636004] end_request: I/O error, dev sda, sector 25141733
May  5 22:58:33 lxhs110a kernel: [156062.636043] md: super_written gets error=-5, uptodate=0
May  5 22:58:33 lxhs110a kernel: [156062.652691] RAID1 conf printout:
May  5 22:58:33 lxhs110a kernel: [156062.652696]  --- wd:1 rd:2
May  5 22:58:33 lxhs110a kernel: [156062.652700]  disk 0, wo:1, o:0, dev:sdb4
May  5 22:58:33 lxhs110a kernel: [156062.652702]  disk 1, wo:0, o:1, dev:sda4
May  5 22:58:33 lxhs110a kernel: [156062.668010] RAID1 conf printout:
May  5 22:58:33 lxhs110a kernel: [156062.668012]  --- wd:1 rd:2
May  5 22:58:33 lxhs110a kernel: [156062.668014]  disk 1, wo:0, o:1, dev:sda4

Folgender S-ATA Controler ist verbaut:
01:0e.0 IDE interface: Broadcom BCM5785 [HT1000] SATA (Native SATA Mode) (prog-if 8f [Master SecP SecO PriP PriO])
        Subsystem: Broadcom BCM5785 [HT1000] SATA (Native SATA Mode)
        Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B- DisINTx-
        Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=medium >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Latency: 64
        Interrupt: pin A routed to IRQ 11
        Region 0: I/O ports at 3040 [size=8]
        Region 1: I/O ports at 3034 [size=4]
        Region 2: I/O ports at 3038 [size=8]
        Region 3: I/O ports at 3030 [size=4]
        Region 4: I/O ports at 3000 [size=16]
        Region 5: Memory at e8100000 (32-bit, non-prefetchable) [size=8K]
        [virtual] Expansion ROM at 40000000 [disabled] [size=128K]
        Capabilities: [60] PCI-X non-bridge device
                Command: DPERE- ERO- RBC=512 OST=8
                Status: Dev=01:0e.0 64bit+ 133MHz+ SCD- USC- DC=simple DMMRBC=512 DMOST=8 DMCRS=32 RSCEM- 266MHz- 533MHz-
        Capabilities: [90] Power Management version 2
                Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot-,D3cold-)
                Status: D0 NoSoftRst- PME-Enable- DSel=0 DScale=0 PME-
        Capabilities: [a0] MSI: Enable- Count=1/1 Maskable- 64bit-
                Address: 00000000  Data: 0000
        Kernel driver in use: sata_svw


lspci -vvv -s 01:0e.1
01:0e.1 IDE interface: Broadcom BCM5785 [HT1000] SATA (Native SATA Mode) (prog-if 8f [Master SecP SecO PriP PriO])
        Subsystem: Broadcom BCM5785 [HT1000] SATA (Native SATA Mode)
        Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B- DisINTx-
        Status: Cap+ 66MHz+ UDF- FastB2B- ParErr- DEVSEL=medium >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Latency: 64
        Interrupt: pin A routed to IRQ 11
        Region 0: I/O ports at 3058 [size=8]
        Region 1: I/O ports at 304c [size=4]
        Region 2: I/O ports at 3050 [size=8]
        Region 3: I/O ports at 3048 [size=4]
        Region 4: I/O ports at 3020 [size=16]
        Capabilities: [60] PCI-X non-bridge device
                Command: DPERE- ERO- RBC=512 OST=8
                Status: Dev=01:0e.0 64bit+ 133MHz+ SCD- USC- DC=simple DMMRBC=512 DMOST=8 DMCRS=32 RSCEM- 266MHz- 533MHz-
        Capabilities: [90] Power Management version 2
                Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot-,D3cold-)
                Status: D0 NoSoftRst- PME-Enable- DSel=0 DScale=0 PME-
        Capabilities: [a0] MSI: Enable- Count=1/1 Maskable- 64bit-
                Address: 00000000  Data: 0000




Reply to: