Ralf Gross: > > ich habe hier einen Server (Supermicro Board X7DBE+, 16 GB RAM), der > seit Sep. 2007 relativ problemlos mit Etch (amd64) laeuft. Nun mussten > wir vom Kernel 2.6.18 zu einem aktuelleren wechseln, ich habe zuerst > den etch-n-half 2.6.24 und dann den 2.6.26 aus den backports > installiert. > > Seit dem bekomme ich taeglich eine Kernel Panic als Folge einer MCE. > > HARDWARE ERROR > CPU 1: Machine Check Exception: 0 Bank 5: 1000001004000e0f > TSC 0 > This is not a software problem! Den letzten Satz würde ich erstmal für glaubwürdig halten. > Sowohl der Lieferant des Servers, als auch ich haben den Speicher im > Sep. 2007 mit memtest mehrere Tage getestet, dabei war nichts > auffaellig. Seitdem ist ja einige Zeit vergangen. Hardware geht ja auch durchaus mal spontan kaputt. Und Serverhardware geht am liebsten nach einem Reboot kaputt. :) > Aktuell habe ich den Server mit der kernel Option > mem=2048M gebootet und er laeuft seit ~18h durch. Wenn das länger ist, als es zuletzt üblich war, ist das ja ein Hinweis auf kaputten Speicher. Ich würde auf jeden Fall nochmal memtest laufen lassen. > Der Lieferant meint, es muss nicht die Hardware (RAM) sein, sondern > auch ein fauler Treiber. Klar meint er das, er will wohl keine Hardware tauschen müssen. :) > Wie kann ich die Ursache fuer die MCE am Besten finden? Das Problem > ist, dass der Server eigentlich im produktiven Betrieb ist. Und wieso > trat es mit 2.6.18 nicht auf? Vielleicht einfach Zufall. J. -- Atrocities committed in Rwanda pervade my mind when I am discussing mundanities with acquaintances. [Agree] [Disagree] <http://www.slowlydownward.com/NODATA/data_enter2.html>
Attachment:
signature.asc
Description: Digital signature