[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Software RAID (mdadm) / Gerät via BMC deaktiviert? Diskussion mit Dienstleister



Am 23.11.22 um 15:53 schrieb Benny K:
Moin,

Du hattest das System nicht ausgeschaltet und neu gestartet gehabt bevor Ihr
die Slots getauscht habt? Dann war eher der Powerswitch der behebende Teil.
In meinen Augen könnte sich die NVMe intern aufgehängt oder nicht mehr
gemeldet haben was dann erst mit dem Power-Switch behoben wurde.

Eine andere Möglichkeit könnten Kommunikationsprobleme mit der NVMe sein
durch Kontaktprobleme sein. Dann wäre das neu stecken der NVMe die
Lösung gewesen.

Im beiden Fällen müsste es Meldungen im dmesg kurz vor dem Ausfall gegeben
haben.

Wenn es im Moment läuft würde ich einen ausgiebigen Lasttest machen und auf
einen der oben genannten Probleme tippen. Hilfreich könnten auch noch
Tests mit smartctl sein. Die könnte auch bei den NVMe funktionieren. Bei
meinen Kingston gibt es aber nur Ausgaben. Die Tests scheinen nicht zu gehen.
Ich habe aber nicht weiter experimentiert.

Vielleicht helfen das nvme-cli Paket mehr. Ich habe es gerade gefunden.

Ich würde auch mal über den Hersteller schauen ob es nicht neuere FW für
die Teile gibt. Vielleicht wurde ein Bug getriggert und hat dafür gesorgt
das sich die eine NVMe vorübergehend „abgemeldet“ hat.

Das Problem auf den Softwareraid zu schieben halte ich für eine Ausrede.
Das Softwareraid macht nichts anderes als es das BS ohne machen würde.
Wenn das SW-Raid das antriggert dann würde es in meinen Augen vermutlich
auch ohne angetriggert werden.
Das das OS mit dem SWRaid das BMC des Boards sagt es solle die NVMe
„abschalten“ würde ich nicht ausschließen können, da ich mich mit den
Möglichkeiten und der Kontrolle des BMC vom OS nicht auskenne, aber ich
glaube nicht, das da was unkonfiguriert für die HW passiert.

Und das ein Device als defekt markiert wird und nicht mehr ins System kommt
ist eher eine Sache die HW-Raids machen. Wegen deren abgeschlossenen und
undurchsichtigen Umgang mit den Daten auf den Devices setze ich daher schon
lange nur auf Soft-Raid. Das hat mir schon einige male geholfen und ein Umzug auf
neue HW war damit auch immer seeeeehr einfach. Meine Raidkarte wird auch nur
wegen der vielen Anschlüsse noch als reiner Controller verwendet.
Die Geschwindigkeit ist nicht die beste aber wenn der Controller mal wieder
ausfällt, dann muss ich nur einen oder zwei finden die auch ohne RAID die
devices zum OS durchreichen.

MfG,
Pierre





Reply to: