[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: OOPs bei kswapd



Also sprach Gerhard Brauer <gerhard.brauer@web.de> (Mon, 18 Jul 2005
17:07:39 +0200):
> Gruesse!

hoi!

> * Richard Mittendorfer <delist@gmx.net> schrieb am [18.07.05 16:11]:
> > Also sprach Gerhard Brauer <gerhard.brauer@web.de> (Mon, 18 Jul 2005
> > 14:37:43 +0200):
> 
> > > Gruesse!
> > > 
> > > Kann mir jemand einen Tip geben, warum bei einem Rechner der
> > > kswapd Daemon im laufenden Betrieb stirbt?
> > > 
> > > Ich kriege einen Kernel-OOPs ins syslog, der kswapd steht danach
> > > als defunct in der Prozeßliste. Der Rechner läuft anschließend
> > > "relativ" normal weiter (außer sendmail/exim)
> > > [...]
> > 
> > ist's immer der kswapd? 
> 
> Ja, immer der kswapd. *Nach* dem oops haben dann clamav und exim
> Probleme. clamav kann auf seinen socket nicht mehr zugreifen und exim
> versendet keine Mails mehr. Ich habe es als Folgeprobleme eingestuft
> da der Rechner scheinbar ja kein paging (sowohl in wie out) mehr
> machen kann.

mit sicherheit. nach nem oops (wenn's ueberhaupt noch geht) restarten -
danach kannst dich auf nichts mehr verlassen.

> Der PC ist ein alter K6 266 mit 96 MB RAM (EDO), der als
> Router,Firwall und Mail/IMAP-Server dient.

sowas hatte ich vor kurzem noch in einsatz. war ein p166 mit 2 mal 2 32M
riegeln, wovon einer von 16M - 20M defekte bereiche hatte. nach einem
memtest hab ich die schlechten flecken im ram mit dem badmem-patch
(gibt's fuer 2.4.xx / 2.6 weiss nicht) ausgeschlossen. grosszuegig
ausgeschlossen, dann war's ok.

> Ursprünglich dachte ich beim Betrieb des Rechners, er hätte ein
> diffuses Problem. Ich kontrolliere diesen PC ausschließlich über ssh
> bzw. aufgrund von Meldungen von logcheck. Und laut Anwendet vor Ort
> gingen immer mal wieder "Internet" nicht, "Netzwerk geht nicht", etc.
> Zu diesem Zeitpunkt habe ich den Rechner mal schonmal eine Zeit mit
> Stresstest überzogen und letztendlich den Software-Watchdog aktiviert
> und konfiguriert. Die Ursache des Ganzen entpuppte sich aber später
> als ein kaputter Switch im LAN ("Scheißproblem": vergaß zeitweise die
> MAC-Adressen bzw. der Switch-Speicher defekt).

das sind _echt_ laesstige (und schwer auszumachende) !#%$probleme.

> Dies nur als Hinweis, das der Rechner eigentlich stabil ist, bis auf
> das kswapd Problem, was vor ca. 4-5 Wochen das erstemal aufgetaucht
> ist. Der Zeitpunkt könnte latürnich auf einen beginnenden
> Hardware-Defekt deuten.

das tritt recht sporatisch auf - davon kann ich ein lied singen. nachdem
er ja bis vor einiger zeit brav gelaufen ist, vermute ich was auf der
hardwareseite. also wenn du mal vorort bist, alle kontakte checken* und
nen' memtest laufen lassen. vielleicht hast du ja andere alte hardware
zum ersetzten der kiste. das klappt im allgemeinen fein: platten ins
neue teil und (fast) fertig.

es gibt auch ein memtest fuer den laufenden betrieb. den hab ich aber
noch nicht getestet - ist vermutlich nichts anderes wie ein cpuburn
(oder wie der stresstest heisst) plus der (versuchten) identifizierung
der defekten bits.

* neu einbauen, davor reinigen, nach korrosierten stellen suchen - nicht
lachen! das ist bei so alten dingern alles andere als unmoeglich ;)

> > wie sieht's mit nfs-last, find in / oder
> > kernelbauen aus? das wuerde dann eher auf ein kaputtes rammodul
> > hinweisen - mal (lange) mit memtest86 testen.
> 
> RAM könnte sein. Intensiv testen (find, etc) kann ich erst heute
> nacht, memtest erst wenn ich mal wieder vor Ort bin. Allerdings habe
> ich keine Effekte (kaputte Dateien/Filesystem), die ansonst noch auf
> einen RAM-Defekt hindeuten würden.

ich wuerd's nicht beschwoeren, aber das hoert sich nach kaputten
speicher an. wenn's nun nur ein kleiner bereich ist, der vielleicht
sogar nur bestimmte bits falsch "speichert", dann wird eventuell auch
einige intensive find's u.ae. u.U. nichts zeigen. ich wuerd' einen
memtest86 ueber nacht (ueber tage) laufen lassen - damit bist du auf der
sicheren seite.

> > ich glaube kaum, dass es sich um einen plattenfehler handelt, aber
> > SMART koennte da sicherheit geben. mir waer aber kein zusammenhang
> > bekannt. (smartctl, smartmon-tools)
> 
> Ich eigentlich auch nicht (außer sagen wir in dem Sektoren-Bereich wo
> außgerechnet die Swap-Partition liegt). Mit sowas gehen aber meiner
> Erfahrung nach read/write Errormeldungen im syslog einher (außer evtl.
> halt beim swap fs ?). Smart ist mit dieser Festplatte und mit diesem
> PC soweit ich weiß noch nicht möglich.

mit 96M wirst du die swap nicht ausschalten koennen, und ich seh' das
auch so: eine fehlerhafte platte wuerde noch andere meldungen im log
bringen. wenn dein kernel "swapfiles" kann, koenntest du inzwischen mal
solche verwenden - nur um das eh' unwahrscheinliche auszuschliessen.

> > kernel-version bekommst du mit "$ uname -r", wenn die sehr
> > out-of-date ist, dann updaten (eventuell aber bei der 2.X-version
> > bleiben, da sonst noch anderes noetig sein wird:
> > modules-init-tools,..). hier gilt aber selbiges: sehe keinen
> > zusammenhang mit deinem oops.
> 
> Ist ein 2.4.27 oder 2.4.29. Mit xx?? wollte ich sagen, ich kann ohne
> auf den Rechner zu gehen momentan die genaue Minor-Version nicht
> sagen. Aber sooo out-of-date ist er sicher nicht. <Doku-Kramen...> Ah,
> ist der letzte stavile 2.4er von backports.org.

glaube nicht, das es am kernel liegt - es sei denn, es gab probleme beim
bauen. 

> > poste mal die fehlermeldung aus messages, schau dir ksymoops an.
> 
> Den oops hänge ich als Text an. Ich habe den oops mal hier lokal an
> ksymoops verfüttert, aber richtig sinnvoll ist das doch nur, wenn ich
> es auf dem betroffenen Rechner mache?

ja. dafuer braucht's 'nen kernelguru ;)

alles was meine wenigkeit dazu sagen kann ist, dass es im
speichersubsystem hackt. free_/shrink_ vermutlich stimmt die aussage
"speicher". und hier ist noch zu beachten, dass ich damit nicht nur die
ram-riegel mein', sondern eventuell auch irgendas am motherboard die
patscherl g'streckt hat, aka, tot ist...  

"aehnliche" meldung hatt' ich auch. meist kswapd und nicht selten nfsd,
der auf der alten box intensiv genutzt wurde.

> Gruß Gerhard

sl ritch



Reply to: