Re: Machine Check Exception mit Kerneln > 2.6.18
Sven Hartge schrieb:
> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
>
> > ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
> > seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
> > wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
> > den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
> > installiert.
>
> > mcelog habe ich eben erst installiert, ich warte noch auf die
> > naechste panic....
>
> Man kann das auch sp?ter noch dekodieren:
>
> HARDWARE ERROR. This is *NOT* a software problem!
> Please contact your hardware vendor
> CPU 1 BANK 5 MCG status:
> MCi status:
> Invalid log
> BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE response parity
> error
> STATUS 1000001004000e0f MCGSTATUS 0
Hm, wenn ich das auf dem Server direkt mache, erhalte ich nur:
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 1 BANK 5 STATUS 1000001004000e0f MCGSTATUS 0
Auf meinem Laptop bekomme ich mit 'mcelog --ascii --core2' die selbe
Ausgabe wie du.
> > Sowohl der Lieferant des Servers, als auch ich haben den Speicher im
> > Sep. 2007 mit memtest mehrere Tage getestet, dabei war nichts
> > auffaellig. Aktuell habe ich den Server mit der kernel Option
> > mem=2048M gebootet und er laeuft seit ~18h durch.
>
> Muss nicht am Speicher liegen, auch CPUs und die Northbridge kommen in
> Betracht. Meine H?ndler haben bisher bei einem MCE jedenfalls nicht
> lange gefackelt und CPU und RAM getauscht und nicht erst versucht, dass
> auf andere Dinge abzuschieben.
Es finden sich im Internet einige Hiweise, dass auch SW daran schuld
sein kann...
> > Der Lieferant meint, es muss nicht die Hardware (RAM) sein, sondern
> > auch ein fauler Treiber.
>
> Ein MCE ist ein MCE ist ein MCE. Da kann sich eigentlich keiner
> herausreden, weil dieser Fehler von der CPU selbst erkannt wird.
> Software ist hier aussen vor.
>
> > Wie kann ich die Ursache fuer die MCE am Besten finden? Das Problem
> > ist, dass der Server eigentlich im produktiven Betrieb ist. Und wieso
> > trat es mit 2.6.18 nicht auf?
>
> Weil vermutlich 2.6.18 das nicht geloggt hat. Das f?hrt in solchen
> F?llen dazu, dass der Server in einem undefinierten Zustand weiter l?uft
> und sehr schnell Datenfehler auftreten k?nnen.
Ok, sowas habe ich mir schon gedacht.
Ralf
Reply to: