Re: Machine Check Exception mit Kerneln > 2.6.18
Sven Hartge schrieb:
> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
> > Sven Hartge schrieb:
> >> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
>
> >>> ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
> >>> seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
> >>> wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
> >>> den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
> >>> installiert.
> >>
> >>> mcelog habe ich eben erst installiert, ich warte noch auf die
> >>> naechste panic....
>
> >> Man kann das auch sp?ter noch dekodieren:
>
> Ist deine oder meine Charset-Deklaration kaputt?
Ich fürchte meine. Sollte jetzt passen.
> >> HARDWARE ERROR. This is *NOT* a software problem!
> >> Please contact your hardware vendor
> >> CPU 1 BANK 5 MCG status:
> >> MCi status:
> >> Invalid log
> >> BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE response parity
> >> error
> >> STATUS 1000001004000e0f MCGSTATUS 0
>
> > Hm, wenn ich das auf dem Server direkt mache, erhalte ich nur:
>
> > HARDWARE ERROR. This is *NOT* a software problem!
> > Please contact your hardware vendor
> > CPU 1 BANK 5 STATUS 1000001004000e0f MCGSTATUS 0
>
> Etch? Das mcelog dort ist zu alt.
ok.
> > Auf meinem Laptop bekomme ich mit 'mcelog --ascii --core2' die selbe
> > Ausgabe wie du.
>
> Laut Intel-Specs sind das BusQueue-Error. Riecht für mich nach CPU oder
> Northbridge-Defekt.
Ich werde damit mal auf den Händler zugehen.
Zu dem Board speziell habe ich einen Hinweis gefunden:
http://www.thomas-krenn.com/de/wiki/Linux_Fehlermeldung_Machine_Check_Exception
Wobei ich den Wert schon unmittelbar nach der Installtion auf Coalesec
geändert hatte.
> >> Muss nicht am Speicher liegen, auch CPUs und die Northbridge kommen in
> >> Betracht. Meine H?ndler haben bisher bei einem MCE jedenfalls nicht
> >> lange gefackelt und CPU und RAM getauscht und nicht erst versucht, dass
> >> auf andere Dinge abzuschieben.
>
> > Es finden sich im Internet einige Hiweise, dass auch SW daran schuld
> > sein kann...
>
> Nein. Frage mal die LKML diesbezüglich, dort wirst du ein eindeutige
> Meinung bekommen und die Leute sollten es wissen, wann diese Meldung
> kommt und was die Ursache sein kann.
Werde ich machen, wobei mich der traffic dort ziemlich abschreckt.
Ralf
Reply to: