[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Absturz mit Kernel Trace log - was nun?



Hi,

auf einem Desktop, der üblicherweise 24/7h unter Testing läuft hat mich
das kürzliche upgrade des Kernels in Testing auf 2.6.38 zu einem Reboot
veranlaßt.  Bis dahin lief die Kiste sicher ein halbes Jahr durch und
wurde in unregelmäßigen Abständen immer auf dem jeweils aktuellen
Testing gehalten.

Beim Booten des neuen Kernels bekam ich einen Tracelog des Kernels und
mußte hart ausschalten.  Ich habe erstmal den alten 2.6.32-5 gebootet.
Beim Arbeiten fiel mir auf, daß immer mal das Netzwerk hing:  Verzögerungen
in SSH Sitzungen, Penta meldete ein "Session timeout" beim Anmelden zur
DebConf, rdesktop-Sitzungen wurden abgebrochen und mußten neu aufgebaut
werden.  (Vor dem ersten Reboot war mir das nicht aufgefallen.)

Ich versuchte dann noch mal den 2.6.38 Kernel.  Dieser bootete nun, die
Netzwerkprobleme blieben jedoch.  Nach etwa 2h uptime wurde ein Kernel
Tracelog auf den X-Bildschirm gezeichnet (während ich nicht im Raum
war - ich dachte schon xscreensaver hätte mal wieder zugeschlagen). War
auch echt.  Ich konnt noch mal mit <Strg-Alt-F1> auf die Konsole und
auch wieder zu X zurück.  Dort verlängerte sich nur noch der Tracelog
und sinnvolle Tastatureingaben waren nicht mehr möglich (also speziell
auch nicht mehr zur Konsole).

Über Netzwerk konnte ich mich noch anmelden und im /var/log/syslog fand
ich genau die Ausgabe, die auf dem Monitor stand:

Apr 13 12:18:36 wr-linux02 kernel: [ 1819.003620] ------------[ cut here ]------------
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.003660] kernel BUG at /build/buildd-linux-2.6_2.6.38-3-amd64-4XBLY6/linux-2.6-2.6.38/debian/build/source_amd64_none/mm/slub.c:2747!
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.003714] invalid opcode: 0000 [#1] SMP
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.003749] last sysfs file: /sys/module/inet_diag/initstate
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.003788] CPU 1
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.003803] Modules linked in: tcp_diag inet_diag ppdev lp binfmt_misc fuse ext2 loop dm_crypt snd_hda_codec_analog radeon snd_hda_intel snd_hda_codec ttm s
nd_hwdep snd_pcm_oss snd_mixer_oss snd_pcm snd_seq_midi drm_kms_helper drm snd_rawmidi i2c_algo_bit snd_seq_midi_event tpm_tis snd_seq i2c_i801 tpm i2c_core snd_timer snd_seq_device snd processo
r tpm_bios thermal_sys parport_pc dell_wmi parport soundcore sparse_keymap power_supply dcdbas snd_page_alloc button evdev pcspkr wmi ext3 jbd mbcache dm_mod usb_storage uas usbhid hid sg sd_mod
 sr_mod crc_t10dif cdrom uhci_hcd ata_generic ahci libahci libata ehci_hcd scsi_mod usbcore e1000e nls_base [last unloaded: scsi_wait_scan]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004403]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004417] Pid: 324, comm: usb-storage Not tainted 2.6.38-2-amd64 #1 Dell Inc. OptiPlex 760                 /0M858N
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004487] RIP: 0010:[<ffffffff810ed5b6>]  [<ffffffff810ed5b6>] kfree+0x58/0xc1
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004532] RSP: 0018:ffff88010f737cc0  EFLAGS: 00010246
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004566] RAX: 0200000000000000 RBX: ffff880100000000 RCX: ffff88010ef02840
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004597] RDX: 0200000000000000 RSI: ffffea0003800000 RDI: ffff880100000000
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004628] RBP: ffff8801108a1680 R08: ffff88010f736000 R09: ffff88010f737d4c
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004659] R10: dead000000100100 R11: ffff8801108a1718 R12: ffffffffa0180729
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004689] R13: ffff8801108a1718 R14: 0000000000000012 R15: 00000000c0010480
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004720] FS:  0000000000000000(0000) GS:ffff8800dfa40000(0000) knlGS:0000000000000000
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004772] CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004798] CR2: 00007fc6f5541000 CR3: 0000000112658000 CR4: 00000000000406e0
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004831] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004862] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004895] Process usb-storage (pid: 324, threadinfo ffff88010f736000, task ffff8801104c5e80)
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004948] Stack:
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.004963]  ffff8801108a1718 ffff8801108a1680 ffff88010f737d4c ffffffffa0180729
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005020]  ffff8801108a1640 ffffffffa00b22d9 0000000000000012 ffff880100000010
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005077]  ffff8801104c5e80 ffff8800c0587d00 ffff880037c0f000 ffff8800c0587d00
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005135] Call Trace:
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005156]  [<ffffffffa0180729>] ? sg_clean+0x2f/0x41 [usbcore]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005198]  [<ffffffffa00b22d9>] ? usb_stor_bulk_transfer_sglist+0x84/0xd6 [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005236]  [<ffffffffa00b2348>] ? usb_stor_bulk_srb+0x1d/0x2d [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005269]  [<ffffffffa00b24dc>] ? usb_stor_Bulk_transport+0xf6/0x252 [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005318]  [<ffffffff811a729a>] ? sg_init_one+0x25/0x53
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005344]  [<ffffffffa00b1fb7>] ? usb_stor_invoke_transport+0x13f/0x327 [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005382]  [<ffffffffa00b3830>] ? usb_stor_control_thread+0x153/0x22d [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005418]  [<ffffffffa00b36dd>] ? usb_stor_control_thread+0x0/0x22d [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005453]  [<ffffffffa00b36dd>] ? usb_stor_control_thread+0x0/0x22d [usb_storage]
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005491]  [<ffffffff8105feeb>] ? kthread+0x7a/0x82
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005515]  [<ffffffff8100a764>] ? kernel_thread_helper+0x4/0x10
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005544]  [<ffffffff8105fe71>] ? kthread+0x0/0x82
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005577]  [<ffffffff8100a760>] ? kernel_thread_helper+0x0/0x10
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005605] Code: 00 48 83 c5 10 48 83 7d 00 00 eb e6 48 83 fb 10 76 7d 48 89 df e8 fa ec ff ff 48 89 c6 48 8b 00 84 c0 78 17 66 f7 06 00 c0 75 04 <0f> 0b e
b fe 5b 5d 41 5c 48 89 f7 e9 ac 0f fd ff 48 8b 4c 24 18
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005949] RIP  [<ffffffff810ed5b6>] kfree+0x58/0xc1
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.005987]  RSP <ffff88010f737cc0>
Apr 13 12:18:36 wr-linux02 kernel: [ 1819.014979] ---[ end trace d8cec4950649fc1e ]---

Der restliche syslog (vorher und nachher) sah vollkommen "normal" aus.

Ich versuchte dann ein reboot über's Netz, doch dann ging nichts mehr.
Ich mußte hart ausschalten.  Beim Booten in den neuen 2.6.38 kam sofort
wieder der Tracelog und hier habe ich mal ein paar Abschnitte abgetippt
(syslog wurde noch nicht geschrieben):

[   12.523760] ---[ end trace <hexnum> ]---
Loading kernel modules...done
Setting up LVM Volume Groups Reading all physical volumes.  This may take a while...
[   12.698379] general protection fault: 0000 [#2] SMP
[   12.698402] last sysfs file: /sys/devices/pci0000:00/0000:00:1a.7/usb/1-2/1-2.1/1-2.1.1/1-2.1.1:1.0/host8/target8:0:0/8:0:0:1/block/sdc/dev
[   12.698440] CPU 0
[   12.698448] Modules linked in: loop(+) dm_crypt snd_hda_codec_analog radeon ttm snd_hda_intel <several other modules stretching three lines> e1000e nls_base [last unloaded: scsi_wait_scan]
[   12.698783]
[   12.700564] Pid: 693, comm: usb-storage Tainted: G     D     2.6.38-2-amd64 #1 Dell Inc. OptiPlex 760       /0M858N
...
[   12.720013] Stack:
...
[   12.720013] Call Trace:
...
[   12.720013] ---[ end trace <hexnum> ]---


Die Frage ist nun: Wenn mit zwei Kernels offensichtlich was nicht stimmt
(also mit dem alten die Netzwerkprobleme) und bei dem neuen noch
zusätzlich die Tracelogs, wobei der Rechner (amd64) seit etwa 1.5 Jahren
unter dem alten Kernel (auch mit 2.6.32-2) bereits 1.5 Jahre lang
klaglos lief - dann scheint mir das eher auf kaputte Hardware zu deuten.
Auf das Teil ist noch Garantie von Dell - aber was sagt man dem Service
in so einem Fall?

Oder sollte ich das doch als Kernel-Bug melden und wenn ja, wo richte ich
die Meldung hin?

Viele Grüße

        Andreas.

-- 
http://fam-tille.de


Reply to: