[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Machine Check Exception mit Kerneln > 2.6.18



Sven Hartge schrieb:
> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
> 
> > ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
> > seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
> > wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
> > den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
> > installiert. 
> 
> > mcelog habe ich eben erst installiert, ich warte noch auf die
> > naechste panic....
> 
> Man kann das auch sp?ter noch dekodieren:
> 
> HARDWARE ERROR. This is *NOT* a software problem!
> Please contact your hardware vendor
> CPU 1 BANK 5 MCG status:
> MCi status:
> Invalid log
> BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE response parity
> error
> STATUS 1000001004000e0f MCGSTATUS 0


Hm, wenn ich das auf dem Server direkt mache, erhalte ich nur:

HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 1 BANK 5 STATUS 1000001004000e0f MCGSTATUS 0


Auf meinem Laptop bekomme ich mit 'mcelog --ascii --core2' die selbe
Ausgabe wie du.

 
> > Sowohl der Lieferant des Servers, als auch ich haben den Speicher im
> > Sep. 2007 mit memtest mehrere Tage getestet, dabei war nichts
> > auffaellig.  Aktuell habe ich den Server mit der kernel Option
> > mem=2048M gebootet und er laeuft seit ~18h durch.
> 
> Muss nicht am Speicher liegen, auch CPUs und die Northbridge kommen in
> Betracht. Meine H?ndler haben bisher bei einem MCE jedenfalls nicht
> lange gefackelt und CPU und RAM getauscht und nicht erst versucht, dass
> auf andere Dinge abzuschieben.


Es finden sich im Internet einige Hiweise, dass auch SW daran schuld
sein kann...

 
> > Der Lieferant meint, es muss nicht die Hardware (RAM) sein, sondern
> > auch ein fauler Treiber.
> 
> Ein MCE ist ein MCE ist ein MCE. Da kann sich eigentlich keiner
> herausreden, weil dieser Fehler von der CPU selbst erkannt wird.
> Software ist hier aussen vor.
> 
> > Wie kann ich die Ursache fuer die MCE am Besten finden? Das Problem
> > ist, dass der Server eigentlich im produktiven Betrieb ist. Und wieso
> > trat es mit 2.6.18 nicht auf?
> 
> Weil vermutlich 2.6.18 das nicht geloggt hat. Das f?hrt in solchen
> F?llen dazu, dass der Server in einem undefinierten Zustand weiter l?uft
> und sehr schnell Datenfehler auftreten k?nnen.
 

Ok, sowas habe ich mir schon gedacht.

Ralf


Reply to: