[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Server wil niet booten, nabeschouwing



On Tue, Feb 07, 2012 at 12:26:46PM +0100, Paul van der Vlis wrote:
> Op 06-02-12 14:09, Paul van der Vlis schreef:
> > Hallo,
> > 
> > Vanmorgen belt een klant me dat de HP Proliant 110 G6 server is
> > vastgelopen. Bij rebooten wil hij niet meer starten. Het gaat om een
> > klein bedrijf met 7 medewerkers, die nu niet meer bij de data kunnen,
> > vervelend.
> > 
> > Het gaat om een systeem met een fakeraid (P212 SAS controller) en root
> > op LVM. Het systeem is niet door mij ingericht (ik had dat niet zo gedaan).
> > 
> > Grub verschijnt (dus er is toegang tot de raid), maar daarna komt een
> > melding "no controller found". Na het starten van de kernel komt een
> > melding van LVM "no volume groups found" en dat root niet gemount kan
> > worden.
> > 
> > Vrijdagavond rond 8 uur heb ik de nieuwe Debian point release erop gezet
> > met een nieuwe kernel (2.6.32 Squeeze), maar nog niet gereboot. Geen
> > idee of er verband is, ik denk het eigenlijk niet. Ik kreeg vrijdagavond
> > laat nog een mailtje dat de backup en virusscan waren gelukt, en
> > zaterdagochtend een melding dat de raid in orde was. Daarna werd het stil.
> > 
> > De klant heeft een Ubuntu live CD gestart en deze gaf ook problemen bij
> > het benaderen van de raid (timeouts). Als hij echter bij het booten in
> > het menu van de raid kaart kijkt, lijkt alles in orde te zijn.
> > 
> > We hebben eerst een monteur van HP besteld (garantie) met een nieuwe
> > raid kaart, deze komt morgen. Maar mocht het niet de hardware zijn dan
> > moet ik natuurlijk aan de slag. Tips zijn welkom...
> 
> Het bleek een corrupte disk te zijn waarmee de raid blijkbaar niet
> overweg kon. Verwijderen van één van de disks uit de raid hielp dus.
> 
> De raid tools in ROM gaven aan dat de disks in orde waren, er kwam
> tijdens booten wel een melding van SMART voorbij dat de disk niet zo
> best meer was.
> 
> De melding over "controller not found" bleek over een USB toetsenbord te
> gaan, het was verdwenen met een PS/2 toetsenbord.

Dank voor de terugkoppeling.

Het was dus een hardware probleem. Dat kan de beste software niet repareren.

Van een RAID controller (software) had ik wel verwacht dat ie overweg kan
met een gare disk. Op zijn minst dat ie op andere manier kenbaar maakt
dat een disk kapot is, dan niet meer willen opstarten.

Mocht je nog meer van zulke hardware in het veld hebben staan,
kijk dan eens hoe disk status te bewaken. Lijkt mij een SMART idee.


Nog over eerdere berichten in deze thread:

Toch nog niet duidelijk was dat het een hardware failure was,
zag ik twee mogelijke problemen^Wuitdagingen:
* Wat veroorzaakte de reboot
* Waarom lukt de reboot niet
Dat had ik in mijn vorige bericht kunnen/zullen vermelden.

Toestemming c.q. instemming van reboot klinkt goed.
Toestemming c.q. instemming van onderhoud is beter.
Als er toch een maintenance window is voor een server,
waarin een (kernel)upgrade gebeurd. Plan dan ook een reboot.
Je wilt over een half jaar niet de verrassing van een faallende kernel.



Groeten
Geert Stappers
-- 
> And is there a policy on top-posting vs. bottom-posting?
Yes.


Reply to: