[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Machine Check Exception mit Kerneln > 2.6.18



Sven Hartge schrieb:
> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
> > Sven Hartge schrieb:
> >> Ralf Gross <Ralf-Lists@ralfgross.de> wrote:
> 
> >>> ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
> >>> seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
> >>> wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
> >>> den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
> >>> installiert. 
> >>
> >>> mcelog habe ich eben erst installiert, ich warte noch auf die
> >>> naechste panic....
>  
> >> Man kann das auch sp?ter noch dekodieren:
> 
> Ist deine oder meine Charset-Deklaration kaputt?


Ich fürchte meine. Sollte jetzt passen.
 
  
> >> HARDWARE ERROR. This is *NOT* a software problem!
> >> Please contact your hardware vendor
> >> CPU 1 BANK 5 MCG status:
> >> MCi status:
> >> Invalid log
> >> BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE response parity
> >> error
> >> STATUS 1000001004000e0f MCGSTATUS 0
> 
> > Hm, wenn ich das auf dem Server direkt mache, erhalte ich nur:
> 
> > HARDWARE ERROR. This is *NOT* a software problem!
> > Please contact your hardware vendor
> > CPU 1 BANK 5 STATUS 1000001004000e0f MCGSTATUS 0
> 
> Etch? Das mcelog dort ist zu alt.

ok.
 
> > Auf meinem Laptop bekomme ich mit 'mcelog --ascii --core2' die selbe
> > Ausgabe wie du.
> 
> Laut Intel-Specs sind das BusQueue-Error. Riecht für mich nach CPU oder
> Northbridge-Defekt.


Ich werde damit mal auf den Händler zugehen.

Zu dem Board speziell habe ich einen Hinweis gefunden:

http://www.thomas-krenn.com/de/wiki/Linux_Fehlermeldung_Machine_Check_Exception

Wobei ich den Wert schon unmittelbar nach der Installtion auf Coalesec
geändert hatte.

 
> >> Muss nicht am Speicher liegen, auch CPUs und die Northbridge kommen in
> >> Betracht. Meine H?ndler haben bisher bei einem MCE jedenfalls nicht
> >> lange gefackelt und CPU und RAM getauscht und nicht erst versucht, dass
> >> auf andere Dinge abzuschieben.
> 
> > Es finden sich im Internet einige Hiweise, dass auch SW daran schuld
> > sein kann...
> 
> Nein. Frage mal die LKML diesbezüglich, dort wirst du ein eindeutige
> Meinung bekommen und die Leute sollten es wissen, wann diese Meldung
> kommt und was die Ursache sein kann.


Werde ich machen, wobei mich der traffic dort ziemlich abschreckt.


Ralf
 


Reply to: