[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

kernel-oops bei Prozessen mit pipe & grossen Datenmengen



Hallo zusammen,

Ich habe hier ein Problem mit "unkillbaren" Prozessen und der pipe.
Es gibt zwei Prozesse mit dem Status "D" also down. Den ersten habe
ich gestern, bzw. heute ganz früh :), schon zu killen versucht. Da
selbst kill -9 nicht half. Habe ich ihm die aufrufende shell
gestohlen. Half aber auch nicht.

Nun sagt man ps:
 PROCESS STATE CODES
 D   uninterruptible sleep (usually IO)

Hm, ist kein Zombie aber killen kann ich ihn nicht?

Jetzt kommt aber noch etwas hinzu. Der tägliche anachron hat einen
ähnliches Problem erzeugt. Dort ist "find" auf einmal "down". Bevor
ich nun auch die Prozesse einzeln abschieße -find wird sich wohl auch
beständig wiedersetzen- wollte ich einmal fragen, ob es vielleicht
doch eine Möglichkeit gibt die Prozesse zu killen. Oder muss ein reboot
her? (Der Prozess fdupes dürfte IMHO durch die Beendigung von X, da er
in einem xterm gestartet wurde, zu erledigen sein.)

fdupes sollte ein großes Verzeichnis durchsuchen. Auch diesen Prozess
habe ich in eine Pipe geschickt:
$ fdupes -rsqn .|tee $outfile
Wobei ich "tee" auch schon gekillt habe, das ging. Übrigens ist im
$outfile nie ein bit angekommen.

"load average" ist IMHO seit/durch anachron so hoch, s.u.
Netsaint hat's verraten, ich kann leider keine Auskunft über die
vorhergehenden Werte geben.
  Date/Time: Fri Feb 14 08:04:04 CET 2003
  Additional Info:
  load average: 2.18, 2.21, 2.02 WARNING


Früher ist es schon einmal passiert das der Rechner morgens stehen
geblieben ist. (anachron?) Es gab keine log-Einträge.  Seid dem habe
ich einen neuen kernel und die swap (3 Partitionen) vergrößert. Ob da
Zusammenhänge bestehen?

Einzige Veränderung an Rechner zum Vortag (uptime 5d):
Gestern habe ich /user/local eine eigene Partition gegönnt - läuft
problemlos.

Ich habe wohl ein Problem mit der pipe. Arrgh! Jetzt sehe ich in
/var/log/kern.log Meldungen von den Zeitpunkten der ausgestiegenen
Prozese. Ich hänge sie unten an. Kann jemand damit etwas anfangen?

Wenn jemand eine mögliche Erklärung in seiner Glaskugel findet warum
die Prozesse ausgestiegen sind, wie ich sie los werde ...
Ich bin allen Erläuterungen aufgeschlossen :)

cu
Juergen



Jetzt kommen die Infos, vielleicht kann ja jemand damit etwas
anfangen:

# r! ps ax -lfj|head -1;ps ax -lfj|egrep "^[0-9]{3} D"
  F S   PID  PPID  PGID   SID PRI  NI  SZ WCHAN  STIME  TIME CMD
000 D 20954     1 20954  8956  69   0 809 down   00:04  0:01 fdupes
100 D 30370 30360 29371 29371  75  10 374 down   07:36  0:05 find

# r! ps -lfj -g 29371
  F S   PID  PPID  PGID   SID PRI  NI  SZ WCHAN  STIME      TIME CMD
040 S 29371     1 29371 29371  69   0 350 rt_sig 07:30  00:00:00 anacron
000 S 29750 29371 29371 29371  74  10 316 select 07:35  00:00:00 run-parts
000 S 30306 29750 29371 29371  75  10 508 wait4  07:36  00:00:00 /bin/sh
000 S 30308 30306 29371 29371  75  10 314 nanosl 07:36  00:00:00 lockfile-touch
000 S 30360 30306 29371 29371  75  10 508 wait4  07:36  00:00:00 /bin/sh
100 D 30370 30360 29371 29371  75  10 374 down   07:36  00:00:05 find
000 S 30371 30360 29371 29371  75  10 584 pipe_w 07:36  00:00:00 sort

TTY  ist ?
UID  ist root außer bei fdupes
C    ist 0
ADDR ist -


* Prozesse mit Parametern:
CMD
fdupes -rsqn .
anacron -s
run-parts --report /etc/cron.daily
/bin/sh /etc/cron.daily/standard
lockfile-touch /var/lock/cron.daily
/bin/sh /usr/sbin/checksecurity
find / /boot /var /usr /home /opt /xmnt/data \
        -xdev ( -false ) -prune -o \
        ( -type f -perm +06000 \
         -o ( ( -type b -o -type c ) -a -not ( -false ) ) \
        ) \
        -printf %8i %5m %3n %-10u %-10g %9s %t %h/%f?n


# r! uname -a
Linux marvin 2.4.20-k6 #1 Mon Jan 13 14:22:34 EST 2003 i586 unknown


# r!free
             total       used       free     shared    buffers     cached
Mem:        192652     181580      11072          0      17724      53384
-/+ buffers/cache:     110472      82180
Swap:       651148     116092     535056


* cut&past von top (BTW: geht das auch anders?) :
 11:06:45 up 4 days,  2:11,  8 users,  load average: 2.15, 2.12, 2.09
148 processes: 147 sleeping, 1 running, 0 zombie, 0 stopped
CPU states:   8.3% user,   5.8% system,   0.4% nice,  85.6% idle
Mem:    192652K total,   183124K used,     9528K free,    17804K buffers
Swap:   651148K total,   116092K used,   535056K free,    53960K cached


* /var/log/kern.log
** Aufruf von fdupes
14 00:03:35 kernel: Unable to handle kernel paging request at virtual address 6c656848
14 00:03:35 kernel:  printing eip:
14 00:03:35 kernel: c0142ee0
14 00:03:35 kernel: *pde = 00000000
14 00:03:35 kernel: Oops: 0000
14 00:03:35 kernel: CPU:    0
14 00:03:35 kernel: EIP:    0010:[find_inode+28/72]    Not tainted
14 00:03:35 kernel: EFLAGS: 00210a97
14 00:03:35 kernel: eax: 00000000   ebx: 6c656820   ecx: 0000000e   edx: cbd00000
14 00:03:35 kernel: esi: 6c656820   edi: 00000000   ebp: 00004b7c   esp: cb6f5ec4
14 00:03:35 kernel: ds: 0018   es: 0018   ss: 0018
14 00:03:35 kernel: Process fdupes (pid: 20889, stackpage=cb6f5000)
14 00:03:35 kernel: Stack: ca3082c0 cbd11f98 00004b7c c6aff400 c01432dc c6aff400 00004b7c cbd11f98 
14 00:03:35 kernel:        00000000 00000000 ca3082c0 c2fc3820 ca3082c0 c21bcc20 cc85efb2 c6aff400 
14 00:03:35 kernel:        00004b7c 00000000 00000000 fffffff4 c2fc3820 c01396b7 c2fc3820 ca3082c0 
14 00:03:35 kernel: Call Trace:    [iget4+64/220] [lp:__insmod_lp_O/lib/modules/2.4.20-k6/kernel/drivers/char/lp.+-1015886/96] [real_lookup+83/196] [link_path_walk+1469/2084] [path_walk+26/28]
14 00:03:35 kernel:   [path_lookup+27/36] [__user_walk+38/64] [sys_stat64+25/112] [system_call+51/64]
14 00:03:35 kernel: 
14 00:03:35 kernel: Code: 39 6e 28 75 ef 8b 44 24 14 39 86 98 00 00 00 75 e3 85 ff 74 

** anachron / run-parts
14 07:35:27 kernel: Unable to handle kernel paging request at virtual address 8a8055b3
14 07:35:27 kernel:  printing eip:
14 07:35:27 kernel: c0142ee0
14 07:35:27 kernel: *pde = 00000000
14 07:35:27 kernel: Oops: 0000
14 07:35:27 kernel: CPU:    0
14 07:35:27 kernel: EIP:    0010:[find_inode+28/72]    Not tainted
14 07:35:27 kernel: EFLAGS: 00010287
14 07:35:27 kernel: eax: 00000000   ebx: 8a80558b   ecx: 0000000e   edx: cbd00000
14 07:35:27 kernel: esi: 8a80558b   edi: 00000000   ebp: 00001f99   esp: c424bec4
14 07:35:27 kernel: ds: 0018   es: 0018   ss: 0018
14 07:35:27 kernel: Process find (pid: 29827, stackpage=c424b000)
14 07:35:27 kernel: Stack: c059d7a0 cbd11f98 00001f99 c8cd6800 c01432dc c8cd6800 00001f99 cbd11f98 
14 07:35:27 kernel:        00000000 00000000 c059d7a0 c73667c0 c059d7a0 c9cfb120 cc85efb2 c8cd6800 
14 07:35:27 kernel:        00001f99 00000000 00000000 fffffff4 c73667c0 c01396b7 c73667c0 c059d7a0 
14 07:35:27 kernel: Call Trace:    [iget4+64/220] [lp:__insmod_lp_O/lib/modules/2.4.20-k6/kernel/drivers/char/lp.+-1015886/96] [real_lookup+83/196] [link_path_walk+1469/2084] [path_walk+26/28]
14 07:35:27 kernel:   [path_lookup+27/36] [__user_walk+38/64] [sys_lstat64+25/112] [sys_write+231/240] [system_call+51/64]
14 07:35:27 kernel: 
14 07:35:27 kernel: Code: 39 6e 28 75 ef 8b 44 24 14 39 86 98 00 00 00 75 e3 85 ff 74 
14 07:35:59 kernel:  <1>Unable to handle kernel paging request at virtual address 8a8055b3
14 07:35:59 kernel:  printing eip:
14 07:35:59 kernel: c0142ee0
14 07:35:59 kernel: *pde = 00000000
14 07:35:59 kernel: Oops: 0000
14 07:35:59 kernel: CPU:    0
14 07:35:59 kernel: EIP:    0010:[find_inode+28/72]    Not tainted
14 07:35:59 kernel: EFLAGS: 00010287
14 07:35:59 kernel: eax: 00000000   ebx: 8a80558b   ecx: 0000000e   edx: cbd00000
14 07:35:59 kernel: esi: 8a80558b   edi: 00000000   ebp: 00049f87   esp: c2c8bec4
14 07:35:59 kernel: ds: 0018   es: 0018   ss: 0018
14 07:35:59 kernel: Process find (pid: 30140, stackpage=c2c8b000)
14 07:35:59 kernel: Stack: c995b0e0 cbd11f98 00049f87 c8cd6800 c01432dc c8cd6800 00049f87 cbd11f98 
14 07:35:59 kernel:        00000000 00000000 c995b0e0 c1a650a0 c995b0e0 c3ce0ec0 cc85efb2 c8cd6800 
14 07:35:59 kernel:        00049f87 00000000 00000000 fffffff4 c1a650a0 c01396b7 c1a650a0 c995b0e0 
14 07:35:59 kernel: Call Trace:    [iget4+64/220] [lp:__insmod_lp_O/lib/modules/2.4.20-k6/kernel/drivers/char/lp.+-1015886/96] [real_lookup+83/196] [link_path_walk+1469/2084] [path_walk+26/28]
14 07:35:59 kernel:   [path_lookup+27/36] [__user_walk+38/64] [sys_lstat64+25/112] [sys_close+67/84] [system_call+51/64]
14 07:35:59 kernel: 
14 07:35:59 kernel: Code: 39 6e 28 75 ef 8b 44 24 14 39 86 98 00 00 00 75 e3 85 ff 74 
14 07:36:18 kernel:  <6>device eth0 left promiscuous mode
14 07:36:21 kernel: device eth0 entered promiscuous mode
14 08:31:55 kernel: Unable to handle kernel paging request at virtual address 39f44db3
14 08:31:55 kernel:  printing eip:
14 08:31:55 kernel: c0142ee0
14 08:31:55 kernel: *pde = 00000000
14 08:31:55 kernel: Oops: 0000
14 08:31:55 kernel: CPU:    0
14 08:31:55 kernel: EIP:    0010:[find_inode+28/72]    Not tainted
14 08:31:55 kernel: EFLAGS: 00210207
14 08:31:55 kernel: eax: 00000000   ebx: 39f44d8b   ecx: 0000000e   edx: cbd00000
14 08:31:55 kernel: esi: 39f44d8b   edi: 00000000   ebp: 000eba33   esp: c2f71ec4
14 08:31:55 kernel: ds: 0018   es: 0018   ss: 0018
14 08:31:55 kernel: Process mc (pid: 14975, stackpage=c2f71000)
14 08:31:55 kernel: Stack: c8b13740 cbd11f98 000eba33 c52a1c00 c01432dc c52a1c00 000eba33 cbd11f98 
14 08:31:55 kernel:        00000000 00000000 c8b13740 c6533d80 c8b13740 c29fd120 cc85efb2 c52a1c00 
14 08:31:55 kernel:        000eba33 00000000 00000000 fffffff4 c6533d80 c01396b7 c6533d80 c8b13740 
14 08:31:55 kernel: Call Trace:    [iget4+64/220] [lp:__insmod_lp_O/lib/modules/2.4.20-k6/kernel/drivers/char/lp.+-1015886/96] [real_lookup+83/196] [link_path_walk+1469/2084] [path_walk+26/28]
14 08:31:55 kernel:   [path_lookup+27/36] [__user_walk+38/64] [sys_lstat64+25/112] [system_call+51/64]
14 08:31:55 kernel: 
14 08:31:55 kernel: Code: 39 6e 28 75 ef 8b 44 24 14 39 86 98 00 00 00 75 e3 85 ff 74 



Reply to: