[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Software RAID (mdadm) / Gerät via BMC deaktiviert? Diskussion mit Dienstleister



Hi Leute, 

wir haben etwas Streß mit einem IT-Lieferanten/Dienstleister: 

- Wir haben einen Server mit 2 x NVMEs
- NVMEs via. mdadm als raid1 konfiguriert, lief bisher einige Wochen einwandfrei
- Kürzlich ist eine NVME ausgefallen

Auszug syslog: 

Nov 20 01:31:21 server kernel: [4638997.424557] md/raid1:md0: Disk failure on nvme1n1p1, disabling device.
Nov 20 01:31:21 server kernel: [4638997.424557] md/raid1:md0: Operation continuing on 1 devices.
Nov 20 01:31:21 server udisksd[2123]: Unable to resolve /sys/devices/virtual/block/md0/md/dev-nvme1n1p1/block symlink
Nov 20 01:31:21 server udisksd[2123]: Unable to resolve /sys/devices/virtual/block/md0/md/dev-nvme1n1p1/block symlink


Wir hatten natürlich erstmal die NVME in Verdacht. 

Was haben wir getan? 
lspci: 1 von 2 NVME wurden angezeigt
nvme list: 1 von 2 NVME wurden angezeigt

Server rebootet, im BIOS geschaut: nur eine NVME zu sehen

Server ausgeschaltet, die "defekte" NVME ausgebaut und direkt wieder in denselben Slot eingebaut. Server gestartet:
- BIOS zeigt 2 x NVME an
- lspci, nvme list zeigen wieder beide NVMEs an
- mdadm rebuild hat auch funktioniert


Beim Dienstleister nachgefragt, was passiert sein könnte - die Antwort: 
"Der Treiber kann bei Systemen mit BMC bei einzelnen Geräten ein disable flag setzen."

Frage an euch: Kann das wirklich so stimmen? Kann man das irgendwo nachlesen oder zurückverfolgen, ob dies tatsächlich der Fall sein könnte? Hätte das Device dann nicht trotzdem wenigstens im BIOS als "disabled" oder so angezeigt werden müssen, anstatt überhaupt gar nicht aufgelistet zu sein?

Das Ding ist, dass wir eher einen Hardware-Defekt sehen (NVME und/oder Mainboard-Slot) und der Dienstleister behauptet, dass das Software-RAID für die ganze Problematik verantwortlich ist, mit dem Hinweis auf ein Hardware-RAID zu setzen. Bzgl. Hardware-RAID gebe ich ihm natürlich Recht, aber kann ein Software-RAID und/oder Treiber wirklich so tief in das System eingreifen, dass die NVME nicht mal mehr in BIOS zu sehen ist? 

Bin auf eure Meinung und Hilfe gespannt! 

Viele Grüße und Danke schonmal! 
Benjamin 



Reply to: