[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Machine Check Exception mit Kerneln > 2.6.18



Ralf Gross:
> 
> ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der
> seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten
> wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst
> den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports
> installiert. 
> 
> Seit dem bekomme ich taeglich eine Kernel Panic als Folge einer MCE.
> 
> HARDWARE ERROR
> CPU 1: Machine Check Exception:   0 Bank 5: 1000001004000e0f
> TSC 0
> This is not a software problem!

Den letzten Satz würde ich erstmal für glaubwürdig halten.

> Sowohl der Lieferant des Servers, als auch ich haben den Speicher im
> Sep. 2007 mit memtest mehrere Tage getestet, dabei war nichts
> auffaellig.

Seitdem ist ja einige Zeit vergangen. Hardware geht ja auch durchaus mal
spontan kaputt. Und Serverhardware geht am liebsten nach einem Reboot
kaputt. :)

> Aktuell habe ich den Server mit der kernel Option
> mem=2048M gebootet und er laeuft seit ~18h durch.

Wenn das länger ist, als es zuletzt üblich war, ist das ja ein Hinweis
auf kaputten Speicher. Ich würde auf jeden Fall nochmal memtest laufen
lassen.

> Der Lieferant meint, es muss nicht die Hardware (RAM) sein, sondern
> auch ein fauler Treiber.

Klar meint er das, er will wohl keine Hardware tauschen müssen. :)

> Wie kann ich die Ursache fuer die MCE am Besten finden? Das Problem
> ist, dass der Server eigentlich im produktiven Betrieb ist. Und wieso
> trat es mit 2.6.18 nicht auf?

Vielleicht einfach Zufall.

J.
-- 
Atrocities committed in Rwanda pervade my mind when I am discussing
mundanities with acquaintances.
[Agree]   [Disagree]
                 <http://www.slowlydownward.com/NODATA/data_enter2.html>

Attachment: signature.asc
Description: Digital signature


Reply to: