[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

LSI MegaRAID SAS 8208ELP в Debian



На всякий случай попробую поспрошать здесь.

Может кто-то из уважаемых имеет счастье иметь этот контроллер
в Debian, да еще в работоспособном виде?

# lspci |grep SAS
03:00.0 SCSI storage controller: LSI Logic / Symbios Logic MegaRAID SAS 8208ELP/8208ELP (rev 08)

Задачи:
1) заставить его отдавать голые диски в систему (в наличии
при ем 3 шт. SAS разных размеров и разной степени убитости).
2) побить диски на разделы, сделать рейд средствами системы (md).
3) грузиться потом с этого самого контроллера.

C 1-2) худо-бедно получилось справиться, подсунув PCI ID
драйверу mptsas при инсталляции Debian Wheezy (см. напр.
http://forum.univention.de/viewtopic.php?f=48&t=1406
(В ядре из Jessie, вроде, этот idшник уже есть в драйвере.)
Загрузчик поставил на первый диск (sda), там же раздел для /boot,
далее на всех трех дисках выделил одинаковые разделы и
сделал raid5 массив.

А вот с 3) пока выяснилось следующее: контроллер позволяет
в своем биос пометить загрузочным только созданный там
райд-массив: в частности, raid0 из отдельного диска.  Именно
последний вариант я выбрал, сделав его из sda.

Система загружается, видит диски и разделы на них, за
исключением разделов на том самом первом диске.  Соответственно,
программный raid5 сразу разваливается.  Помимо дисков и созданных
мной mdadm массивов - виден также /dev/md127 (metadata:ddf), видимо
это то, что добавлено через BIOS контроллера.  Если сказать
mdadm --stop /dev/md127 && partprobe /dev/sda - появляются созданные
ранее разделы на первом диске, доступные для записи и после добавления
руками /dev/sda5 в развалившийся ранее raid5 массив - начинается
синхронизация данных на него (покуда массив не разваливается из-за
проблем с уже другим диском).

Подозреваю, что если сказать ядру md.ddf=0 - оно не будет стартовать
/dev/md127.  Будет ли этого достаточно, чтобы после загрузки корректно
определялись _все_ разделы и можно было обновлять загрузчик на /dev/sda
без риска повредить метаданные, что добавил контроллер?

PS: В аттаче прикрепил вывод mdadm с созданных массивов (уже после
убития raid5, увы, покуда еще там что-то шевелилось), --examine с sda.
$ sudo mdadm --detail /dev/md0
/dev/md0:
        Version : 0.90
  Creation Time : Fri Feb  5 11:46:13 2016
     Raid Level : raid1
     Array Size : 248896 (243.10 MiB 254.87 MB)
  Used Dev Size : 248896 (243.10 MiB 254.87 MB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Fri Feb  5 22:15:29 2016
          State : clean 
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

           UUID : 80bd2915:f9f84736:2e3043bf:80ad74ee (local to host debian)
         Events : 0.21

    Number   Major   Minor   RaidDevice State
       0       8       17        0      active sync   /dev/sdb1
       1       8       33        1      active sync   /dev/sdc1

$ sudo mdadm --detail /dev/md1
/dev/md1:
        Version : 1.2
  Creation Time : Fri Feb  5 11:47:01 2016
     Raid Level : raid5
     Array Size : 285988864 (272.74 GiB 292.85 GB)
  Used Dev Size : 142994432 (136.37 GiB 146.43 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Fri Feb  5 23:59:24 2016
          State : clean, FAILED 
 Active Devices : 1
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

           Name : debian:1  (local to host debian)
           UUID : 4b854156:7a4d61e6:aba2c6bc:836bc8c5
         Events : 2080

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       0        0        1      removed
       2       8       37        2      active sync   /dev/sdc5

       1       8       21        -      faulty spare   /dev/sdb5
       3       8        5        -      spare   /dev/sda5


$ sudo mdadm --examine /dev/sda
/dev/sda:
          Magic : de11de11
        Version : 01.00.00
Controller GUID : 4C534920:20202020:FFFFFFFF:FFFFFFFF:FFFFFFFF:FFFFFFFF
                  (LSI     )
 Container GUID : 4C534920:20202020:10000055:00000000:00000000:00001424
                  (LSI      01/01/80 03:00:00)
            Seq : 0000000f
  Redundant hdr : yes
  Virtual Disks : 1

      VD GUID[0] : 4C534920:20202020:10000055:00000000:43E64F20:00000A28
                  (LSI      02/05/16 22:16:48)
         unit[0] : 0
        state[0] : Optimal, Consistent
   init state[0] : Not Initialised
       access[0] : Read/Write
         Name[0] : 
 Raid Devices[0] : 1 (0)
   Chunk Size[0] : 128 sectors
   Raid Level[0] : RAID0
  Device Size[0] : 438475776
   Array Size[0] : 438475776

 Physical Disks : 1
      Number    RefNo      Size       Device      Type/State
         0    998e4942  438475776K /dev/sda        active/Online


$ uname -a
Linux debian 3.2.0-4-amd64 #1 SMP Debian 3.2.73-2+deb7u2 x86_64 GNU/Linux

$ sudo mdadm --version
mdadm - v3.2.5 - 18th May 2012

$ sudo smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               HP      
Product:              DF146ABAA9      
Revision:             HPDB
User Capacity:        146 815 737 856 bytes [146 GB]
Logical block size:   512 bytes
Logical Unit id:      0x50018620896d2327
Serial number:        3LN2D6XN00009817DHV2
Device type:          disk
Transport protocol:   SAS
Local Time is:        Fri Feb  5 23:56:57 2016 MSK
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     23 C
Drive Trip Temperature:        68 C
Elements in grown defect list: 0
Vendor (Seagate) cache information
  Blocks sent to initiator = 2875739605
  Blocks received from initiator = 2310931509
  Blocks read from cache and sent to initiator = 2747178278
  Number of read and write commands whose size <= segment size = 114092479
  Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 57877,05
  number of minutes until next internal SMART test = 51

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0        0         0         0          0          0,000           0
write:         0        0         0         0          0          0,000           0

Non-medium error count:        0

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   57870                 - [-   -    -]
# 2  Background short  Completed                   -   57870                 - [-   -    -]
# 3  Background long   Completed                   -   57833                 - [-   -    -]
# 4  Background long   Completed                   -   57653                 - [-   -    -]
# 5  Background short  Completed                   -   57650                 - [-   -    -]

Long (extended) Self Test duration: 1420 seconds [23,7 minutes]

$ tail ... /var/log/syslog
Feb  5 23:46:27 debian kernel: [ 5369.738161] sd 8:0:1:0: [sdb] CDB: Read(10): 28 00 0b 75 ef ae 00 00 08 00
Feb  5 23:46:27 debian kernel: [ 5369.738167] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff88022360ea80)
Feb  5 23:46:27 debian kernel: [ 5369.738169] mptscsih: ioc0: attempting task abort! (sc=ffff880224d75d80)
Feb  5 23:46:27 debian kernel: [ 5369.738171] sd 8:0:1:0: [sdb] CDB: Read(10): 28 00 0b 75 ef b6 00 00 08 00
Feb  5 23:46:27 debian kernel: [ 5369.738177] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff880224d75d80)
Feb  5 23:46:27 debian kernel: [ 5369.738179] mptscsih: ioc0: attempting task abort! (sc=ffff88022360e880)
Feb  5 23:46:27 debian kernel: [ 5369.738181] sd 8:0:1:0: [sdb] CDB: Read(10): 28 00 0b 75 ef be 00 03 08 00
Feb  5 23:46:27 debian kernel: [ 5369.738188] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff88022360e880)
Feb  5 23:46:27 debian kernel: [ 5369.738190] mptscsih: ioc0: attempting task abort! (sc=ffff880225853ac0)
Feb  5 23:46:27 debian kernel: [ 5369.738192] sd 8:0:1:0: [sdb] CDB: Read(10): 28 00 0b 75 f2 c6 00 00 08 00
Feb  5 23:46:27 debian kernel: [ 5369.738198] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff880225853ac0)
Feb  5 23:48:16 debian kernel: [ 5477.829804] sd 8:0:1:0: [sdb] Unhandled sense code
Feb  5 23:48:16 debian kernel: [ 5477.829809] sd 8:0:1:0: [sdb]  Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Feb  5 23:48:16 debian kernel: [ 5477.829812] sd 8:0:1:0: [sdb]  Sense Key : Hardware Error [current] 
Feb  5 23:48:16 debian kernel: [ 5477.829816] Info fld=0xc23b6e1
Feb  5 23:48:16 debian kernel: [ 5477.829817] sd 8:0:1:0: [sdb]  <<vendor>> ASC=0x80 ASCQ=0x8dASC=0x80 <<vendor>> ASCQ=0x8d
Feb  5 23:48:16 debian kernel: [ 5477.829825] sd 8:0:1:0: [sdb] CDB: Read(10): 28 00 0c 23 b6 3e 00 03 70 00
Feb  5 23:48:16 debian kernel: [ 5477.829832] end_request: critical target error, dev sdb, sector 203667166
Feb  5 23:48:16 debian kernel: [ 5477.829870] md/raid:md1: read error not correctable (sector 203169088 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829873] md/raid:md1: Disk failure on sdb5, disabling device.
Feb  5 23:48:16 debian kernel: [ 5477.829874] md/raid:md1: Operation continuing on 1 devices.
Feb  5 23:48:16 debian kernel: [ 5477.829938] md/raid:md1: read error not correctable (sector 203169096 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829941] md/raid:md1: read error not correctable (sector 203169104 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829943] md/raid:md1: read error not correctable (sector 203169112 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829945] md/raid:md1: read error not correctable (sector 203169120 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829948] md/raid:md1: read error not correctable (sector 203169128 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829950] md/raid:md1: read error not correctable (sector 203169136 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829953] md/raid:md1: read error not correctable (sector 203169144 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829955] md/raid:md1: read error not correctable (sector 203169152 on sdb5).
Feb  5 23:48:16 debian kernel: [ 5477.829957] md/raid:md1: read error not correctable (sector 203169160 on sdb5).
Feb  5 23:48:16 debian mdadm[2013]: Rebuild70 event detected on md device /dev/md/1
Feb  5 23:48:16 debian kernel: [ 5477.840011] md: md1: recovery done.
Feb  5 23:48:16 debian mdadm[2013]: Fail event detected on md device /dev/md/1, component device /dev/sdb5
Feb  5 23:48:16 debian kernel: [ 5478.249341] RAID conf printout:
Feb  5 23:48:16 debian kernel: [ 5478.249344]  --- level:5 rd:3 wd:1
Feb  5 23:48:16 debian kernel: [ 5478.249345]  disk 0, o:1, dev:sda5
Feb  5 23:48:16 debian kernel: [ 5478.249347]  disk 1, o:0, dev:sdb5
Feb  5 23:48:16 debian kernel: [ 5478.249349]  disk 2, o:1, dev:sdc5
Feb  5 23:48:16 debian mdadm[2013]: RebuildFinished event detected on md device /dev/md/1
Feb  5 23:48:16 debian kernel: [ 5478.256018] RAID conf printout:
Feb  5 23:48:16 debian kernel: [ 5478.256020]  --- level:5 rd:3 wd:1
Feb  5 23:48:16 debian kernel: [ 5478.256022]  disk 1, o:0, dev:sdb5
Feb  5 23:48:16 debian kernel: [ 5478.256023]  disk 2, o:1, dev:sdc5
Feb  5 23:48:16 debian kernel: [ 5478.256027] RAID conf printout:
Feb  5 23:48:16 debian kernel: [ 5478.256029]  --- level:5 rd:3 wd:1
Feb  5 23:48:16 debian kernel: [ 5478.256030]  disk 1, o:0, dev:sdb5
Feb  5 23:48:16 debian kernel: [ 5478.256032]  disk 2, o:1, dev:sdc5
Feb  5 23:48:16 debian kernel: [ 5478.256052] RAID conf printout:
Feb  5 23:48:16 debian kernel: [ 5478.256054]  --- level:5 rd:3 wd:1
Feb  5 23:48:16 debian kernel: [ 5478.256056]  disk 2, o:1, dev:sdc5

Reply to: