Machine Check Exception, Athlon 64, Asus K8-N
Hallo,
ich habe ein Problem mit einem neuen Rechner. Es handelt sich um einen
Athlon 64 3000+, 1 GB RAM, Asus K8-N Board mit zwei IDE-Platten.
Das System (vornaml Athlon 1,2 GHz) wurde aufgerüstet, aus dem alten
System wurden die Festplatten inkl. Debian-Installation übernommen. Als
einzige wesentliche Änderung wurde der Kernel 2.4.26 für den Athlon 64
übersetzt.
Das neue System weist erhebliche Instabilitäten auf, welche bisher
ausschließlich in folgenden Situationen auftraten:
Nachts wird mit "faubackup" (Perl-Skript) eine vollständige
Datensicherung auf die zweite IDE-Platte durchgeführt. Dabei stürtzt das
System in ca. 50% der Fälle nach ca. 1 Stunde mit unten beschriebener
Fehlermeldung ab. Erlöst man das System per Reset oder Ein- und
Ausschalten, so ist die Gefahr groß (ca. 80%), dass beim Neustart im
Rahmen des Quota-Checks erneut ein Absturz erfolgt. Erst dann, wenn man
das System längere Zeit ausgeschaltet ließ, bootet es korrekt durch.
Fehlermeldung:
CPU0: Machine Check Exception: 0000000000000004
Bank4. b200000000070f0f
Kernel panic: CPU context corrupt
In interrupt handler - not syncing
Weitere Infos, die ich sammeln konnte:
Je nach Temperatur wird der Lüfter der CPU (Q-Fan des Boards) geregelt,
während prozessorintensiver Aktion (Grafikbearbeitung oder auch
faubackup) hört man, wie der Lüfter auf Touren kommt. Wenn der Rechner
wie beschrieben abstürzt, läuft der Lüfter bis zum Reboot und darüber
hinaus auf Hochtouren. Ein thermisches Problem mächte ich aber
auschließen, da a) der Hardware-Monitor auch Sekunden nach dem Absturz
nur max. 50°C CPU-Temperatur anzeigt und b) sich das Problem auch
dadurch nicht lindern (bzgl. der Absturzwahrscheinlichkeit) lässt, dass
man den CPU-Lüfter manuell stets auf Hochtouren (Q-Fan aus bzw. auf
volle Power) laufen lässt. Es handelt sich übringens um einen
Boxed-Prozessor.
Ich habe versucht, den Fehler zu provozieren, in dem ich künstlich über
24 höchste IO-Last (Hin- und Herkopieren reisiger Datenmengen) auf den
Platten erzeugt habe oder die CPU über 24 Stunden zu 100% (while true;
do test; done) ausgelastet habe: Fehlanzeige - das System wird warm
(Lüfter!), aber es läuft.
Ich habe das Diskquota-System deaktiviert: es stürzt dennoch bei
faubackup ab, aber natürlich nicht mehr beim Reboot, da Quota-Check,
dann übersprungen wird.
Ich habe über 24 Stunden Memtest86 bzw. Festplattentestprogramme laufen
lassen: alles in Ordnung.
Zwei BIOS-Updates und ein Kernel-Update auf 2.4.27 (Vanilla) haben nicht
geholfen.
Hat jemand Ideen/Einfälle/Tipps/Infos? Ich bin für jede konstruktive
Anmerkung dankbar.
Viele Grüße
Michael
Reply to: