[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Machine Check Exception mit Kerneln > 2.6.18



Ralf Gross <Ralf-Lists@ralfgross.de> wrote:

> ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
> seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
> wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
> den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
> installiert. 

> mcelog habe ich eben erst installiert, ich warte noch auf die
> naechste panic....

Man kann das auch später noch dekodieren:

HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 1 BANK 5 MCG status:
MCi status:
Invalid log
BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE response parity
error
STATUS 1000001004000e0f MCGSTATUS 0

> Sowohl der Lieferant des Servers, als auch ich haben den Speicher im
> Sep. 2007 mit memtest mehrere Tage getestet, dabei war nichts
> auffaellig.  Aktuell habe ich den Server mit der kernel Option
> mem=2048M gebootet und er laeuft seit ~18h durch.

Muss nicht am Speicher liegen, auch CPUs und die Northbridge kommen in
Betracht. Meine Händler haben bisher bei einem MCE jedenfalls nicht
lange gefackelt und CPU und RAM getauscht und nicht erst versucht, dass
auf andere Dinge abzuschieben.

> Der Lieferant meint, es muss nicht die Hardware (RAM) sein, sondern
> auch ein fauler Treiber.

Ein MCE ist ein MCE ist ein MCE. Da kann sich eigentlich keiner
herausreden, weil dieser Fehler von der CPU selbst erkannt wird.
Software ist hier aussen vor.

> Wie kann ich die Ursache fuer die MCE am Besten finden? Das Problem
> ist, dass der Server eigentlich im produktiven Betrieb ist. Und wieso
> trat es mit 2.6.18 nicht auf?

Weil vermutlich 2.6.18 das nicht geloggt hat. Das führt in solchen
Fällen dazu, dass der Server in einem undefinierten Zustand weiter läuft
und sehr schnell Datenfehler auftreten können.

S°

-- 
Sig lost. Core dumped.


Reply to: