[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Komplettes Aufhaengen -- wo suchen?



Moin zusammen,

ich habe letztens folgenden Typ Rechner (gebraucht/aufgearbeitet)
gekauft, der schwer nachvollziehbare Instabilitäten zeigt:

NEC Powermate ML3 Flex
P4 1.5 GHz
256 MB RAM
Mainboard: Microstar MS-6506
Grafikkarte: LeadTek RIVA TNT2 Model 64 (AGP)
Netzwerk: Intel EtherExpress PRO/100 S
Onboard-Sound/USB

Anfangs habe ich "nur" Etch installiert, per DVD aus einer
Internetquelle (ca. 6 MBit/s). Einmal hängte der Rechner sich beim
Pakete Runterladen nach ca. einer halben Stunde komplett auf
(absolut nichts ging mehr, außer manuelles Ausschalten), doch beim
nächsten Versuch lief die Installation problemlos durch. Dann habe
einen Debianmirror darauf geladen -- lief alles stundenlang
problemlos -- und einen Tag später (dazwischen war er aus) Daten aus
dem LAN draufkopiert (ca. 100 MBit/s), nach ca. 1,5 h wieder
dasselbe, komplettes Aufhängen. In den Logs keine Spur von
Unregelmäßigkeiten (nur schien meist der letzte Eintrag vor dem
Absturz ein startender Cronjob zu sein -- siehe unten im
aussagekräftigeren Log).

Ich habe dann mal "stress" darauf losgelassen und alles ordentlich
belastet. Mehrere Stunden lang nichts. Dann mal "yes" mit netcat
alleine auf ihn losgelassen (fast 100 MBit Download), stundenlang
nichts passiert. Dann beides zusammen (stress+Netz), wieder nichts.
Ich dachte schon, es hätte sich von selbst gelöst. Ein paar Passes
memtest86+ brachten auch keine Fehler.

Dann habe ich mit nmi_watchdog=1 gebootet und versucht das Problem
zu reproduzieren ... kein Ergebnis, bis heute. Ich hatte nur den
Rechner eingeschaltet und er war die ganze Zeit im Leerlauf, bis auf
Cronjobs vielleicht. Nach IIRC einer halben Stunde ging's dann los:

Jun 15 12:13:44 server1 anacron[2290]: Anacron 2.3 started on 2007-06-15
Jun 15 12:13:44 server1 anacron[2290]: Will run job `cron.daily' in 5 min.
Jun 15 12:13:44 server1 anacron[2290]: Jobs will be executed sequentially
Jun 15 12:13:44 server1 /usr/sbin/cron[2303]: (CRON) INFO (pidfile fd = 3)
Jun 15 12:13:44 server1 /usr/sbin/cron[2304]: (CRON) STARTUP (fork ok)
Jun 15 12:13:44 server1 /usr/sbin/cron[2304]: (CRON) INFO (Running @reboot jobs)
Jun 15 12:17:01 server1 /USR/SBIN/CRON[2354]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jun 15 12:18:44 server1 anacron[2290]: Job `cron.daily' started
Jun 15 12:18:44 server1 anacron[2359]: Updated timestamp for job `cron.daily' to 2007-06-15
Jun 15 12:19:08 server1 syslogd 1.4.1#18: restart.
Jun 15 12:19:08 server1 anacron[2290]: Job `cron.daily' terminated (exit status: 1) (mailing output)
Jun 15 12:19:08 server1 kernel: Bad page state in process 'sendmail'
Jun 15 12:19:08 server1 kernel: page:c11a3280 flags:0x80010068 mapping:cd0c8d50 mapcount:0 count:1
Jun 15 12:19:08 server1 kernel: Trying to fix it up, but a reboot is needed
Jun 15 12:19:08 server1 kernel: Backtrace:
Jun 15 12:19:08 server1 kernel:  [<c0144f15>] bad_page+0x41/0x67
Jun 15 12:19:08 server1 kernel:  [<c01456b3>] get_page_from_freelist+0x22e/0x36e
Jun 15 12:19:08 server1 kernel:  [<c0145841>] __alloc_pages+0x4e/0x275
Jun 15 12:19:08 server1 kernel:  [<c0150f1e>] anon_vma_prepare+0x57/0xa5
Jun 15 12:19:08 server1 kernel:  [<c014bfde>] __handle_mm_fault+0xf8/0x740
Jun 15 12:19:08 server1 kernel:  [<c014eb88>] do_brk+0x133/0x1c3
Jun 15 12:19:08 server1 kernel:  [<c01154b6>] do_page_fault+0x18a/0x481
Jun 15 12:19:08 server1 kernel:  [<c011532c>] do_page_fault+0x0/0x481
Jun 15 12:19:08 server1 kernel:  [<c01037f9>] error_code+0x39/0x40
Jun 15 12:19:08 server1 kernel: Bad page state in process 'syslogd'
Jun 15 12:19:08 server1 kernel: page:c11a3260 flags:0x80010068 mapping:cd0c8d50 mapcount:0 count:1
Jun 15 12:19:08 server1 kernel: Trying to fix it up, but a reboot is needed
Jun 15 12:19:08 server1 kernel: Backtrace:
Jun 15 12:19:08 server1 kernel:  [<c0144f15>] bad_page+0x41/0x67
Jun 15 12:19:08 server1 kernel:  [<c01456b3>] get_page_from_freelist+0x22e/0x36e
Jun 15 12:19:08 server1 kernel:  [<c0145841>] __alloc_pages+0x4e/0x275
Jun 15 12:19:08 server1 kernel:  [<c014be83>] __pte_alloc+0x11/0x74
Jun 15 12:19:08 server1 kernel:  [<c014ccee>] copy_page_range+0xc4/0x2dc
Jun 15 12:19:08 server1 kernel:  [<c011bcf8>] copy_process+0xa73/0x10a9
Jun 15 12:19:08 server1 kernel:  [<c011c593>] do_fork+0x91/0x17a
Jun 15 12:19:08 server1 kernel:  [<c0159c05>] vfs_llseek+0x30/0x34
Jun 15 12:19:08 server1 kernel:  [<c01012c2>] sys_clone+0x28/0x2d
Jun 15 12:19:08 server1 kernel:  [<c0102c11>] sysenter_past_esp+0x56/0x79
[viele mehr dieser Abschnitte, mit "process 'syslogd'"]
Jun 15 12:19:15 server1 anacron[2290]: Tried to mail output of job `cron.daily', but mailer process (/usr/sbin/sendmail) got signal 11
Jun 15 12:19:15 server1 anacron[2290]: Normal exit (1 job run)
Jun 15 12:33:05 server1 -- MARK --

Das komische ist: Offensichtlich ist der sysklogd weitergelaufen
(MARK). Pingen konnte ich den Rechner noch (IIRC ging das bei 
vorherigen Abstürzen nicht). Der SSH-Client, mit dem ich mich
einloggen wollte, hing nur während der Verbindungsphase.

Bildschirm und Tastatur angeschlossen -- nichts. Nichtmal Num Lock
und Konsorten haben reagiert, Bildschirm bekam ein Signal, war aber
dunkel. Das einzig auffällige war eine leicht erhöhte
Gehäusetemperatur (42 °C), aber das sollte einem P4 wenig anhaben
können. Lüfter laufen alle gut, Kühlkörper sind frei.

Was könnten die Meldungen im Syslog bedeuten? Wo könnte das Problem
liegen, oder wo könnte ich als nächstes suchen? Ich habe nämlich
momentan keine Idee. Dmesg zeigt keine Auffälligkeiten ... poste ich
auf Anfrage gern.

Danke fürs Lesen & Grüße,


Björn

-- 
BOFH excuse #408:

Computers under water due to SYN flooding.



Reply to: