[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Machine Check Exception mit Kerneln > 2.6.18



Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
> Sven Hartge schrieb:
>> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:

>>> ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
>>> seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
>>> wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
>>> den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
>>> installiert. 
>>
>>> mcelog habe ich eben erst installiert, ich warte noch auf die
>>> naechste panic....
 
>> Man kann das auch sp?ter noch dekodieren:

Ist deine oder meine Charset-Deklaration kaputt?
 
>> HARDWARE ERROR. This is *NOT* a software problem!
>> Please contact your hardware vendor
>> CPU 1 BANK 5 MCG status:
>> MCi status:
>> Invalid log
>> BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE response parity
>> error
>> STATUS 1000001004000e0f MCGSTATUS 0

> Hm, wenn ich das auf dem Server direkt mache, erhalte ich nur:

> HARDWARE ERROR. This is *NOT* a software problem!
> Please contact your hardware vendor
> CPU 1 BANK 5 STATUS 1000001004000e0f MCGSTATUS 0

Etch? Das mcelog dort ist zu alt.

> Auf meinem Laptop bekomme ich mit 'mcelog --ascii --core2' die selbe
> Ausgabe wie du.

Laut Intel-Specs sind das BusQueue-Error. Riecht für mich nach CPU oder
Northbridge-Defekt.

>> Muss nicht am Speicher liegen, auch CPUs und die Northbridge kommen in
>> Betracht. Meine H?ndler haben bisher bei einem MCE jedenfalls nicht
>> lange gefackelt und CPU und RAM getauscht und nicht erst versucht, dass
>> auf andere Dinge abzuschieben.

> Es finden sich im Internet einige Hiweise, dass auch SW daran schuld
> sein kann...

Nein. Frage mal die LKML diesbezüglich, dort wirst du ein eindeutige
Meinung bekommen und die Leute sollten es wissen, wann diese Meldung
kommt und was die Ursache sein kann.

S°

-- 
Sig lost. Core dumped.


Reply to: