[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Server wil niet booten, nabeschouwing



Op 07-02-12 14:48, Geert Stappers schreef:
> On Tue, Feb 07, 2012 at 12:26:46PM +0100, Paul van der Vlis wrote:
>> Op 06-02-12 14:09, Paul van der Vlis schreef:
>
>> Het bleek een corrupte disk te zijn waarmee de raid blijkbaar niet
>> overweg kon. Verwijderen van één van de disks uit de raid hielp dus.
>>
>> De raid tools in ROM gaven aan dat de disks in orde waren, er kwam
>> tijdens booten wel een melding van SMART voorbij dat de disk niet zo
>> best meer was.
>>
>> De melding over "controller not found" bleek over een USB toetsenbord te
>> gaan, het was verdwenen met een PS/2 toetsenbord.
> 
> Dank voor de terugkoppeling.
> 
> Het was dus een hardware probleem. Dat kan de beste software niet repareren.

Maar de software had wel geen duistere foutmeldingen als "controller not
found" kunnen geven. Uiteraard had ik misschien moeten weten dat deze
melding "normaal" was.

> Van een RAID controller (software) had ik wel verwacht dat ie overweg kan
> met een gare disk. 

Inderdaad. Neem geen P212 SAS controller.

> Op zijn minst dat ie op andere manier kenbaar maakt
> dat een disk kapot is, dan niet meer willen opstarten.

Hij had volgens mij niet door dat de disk echt kapot was, o.i.d.

> Mocht je nog meer van zulke hardware in het veld hebben staan,

Fake-raid probeer ik te vermijden, maar ik beheer nog een Dell met een
vergelijkbare kaart.

> kijk dan eens hoe disk status te bewaken. Lijkt mij een SMART idee.

Dat wordt ook gedaan op raid niveau, maar niet op SMART niveau.

Verder heb ik moeite om te beoordelen wat SMART zegt, ik vind het veelal
niet duidelijk genoeg eigenlijk. Ik wil een melding die zegt: "deze disk
moet vervangen", en niet duizend getalletjes. Ik gebruik daarom op een
enkele uitzondering na geen SMART (maar wel vrijwel overal raid1).

> Nog over eerdere berichten in deze thread:
> 
> Toch nog niet duidelijk was dat het een hardware failure was,

Dat was inderdaad onduidelijk.

> zag ik twee mogelijke problemen^Wuitdagingen:
> * Wat veroorzaakte de reboot

Er was geen reboot, de machine draaide, maar reageerde niet meer.
Vastgelopen dus.

> * Waarom lukt de reboot niet

Vanwege een raid die een defecte disk niet goed detecteerde dus.

> Dat had ik in mijn vorige bericht kunnen/zullen vermelden.
> 
> Toestemming c.q. instemming van reboot klinkt goed.

Bij deze klant meld ik dat er 's nachts gereboot gaat worden, andere
klanten doen het rebooten weer liever zelf.

> Toestemming c.q. instemming van onderhoud is beter.

Ja, maar voor mij is het weer handig om dat te kunnen doen als ik tijd &
zin heb.

> Als er toch een maintenance window is voor een server,
> waarin een (kernel)upgrade gebeurd. Plan dan ook een reboot.

Planning is niet mijn sterke kant, ik werk liever gewoon door.

> Je wilt over een half jaar niet de verrassing van een faallende kernel.

Inderdaad. En ik moet bekennen dat ondanks dat ik een mooi systeem voor
rebooten heb, er op dit moment verschillende machines nodig gereboot
moeten worden.

Groet,
Paul.

-- 
Paul van der Vlis Linux systeembeheer, Groningen
http://www.vandervlis.nl


Reply to: