[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Systemverhalten nach Plattenausfall



Hallo,

in meinem Server ist heute offenbar eine IDE-Platte verstorben. Auf der Platte liegen/lagen einige Samba-Shares sowie der apt-proxy-Cache. Es ging los mit

Aug 10 11:28:38 server kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Aug 10 11:28:38 server kernel: hda: dma_intr: error=0x04 { DriveStatusError }
Aug 10 11:28:38 server kernel: ide: failed opcode was: unknown

und geht viertelsekündlich ebenso weiter. Dadurch läuft mir bald /var voll, denn syslog schreibt das nämlich fleißig weiter anstatt eines "last message repeated <ein paar hundert> times". Weiterhin hat es "tolle" Auswirkungen auf logcheck, das es kaum mehr schafft, diese monströsen Logdateien zu verarbeiten. Auch Exim hat Spaß, weil es an den dicken Mails von Logcheck ziemlich zu kauen hat.

Smartmontools lässt/ließ alle paar Minuten einen Kurztest laufen, diese finde ich nun schon zu hunderten in der Prozessliste:

root     31762  0.0  0.0   1696   528 ?        D    13:55   0:00 /usr/sbin/smartctl -a -A -i /dev/hda
root     31969  0.0  0.0   1696   528 ?        D    13:55   0:00 /usr/sbin/smartctl -A /dev/hda
root     32301  0.0  0.0   1688   524 ?        D    14:00   0:00 /usr/sbin/smartctl -a -A -i /dev/hda
root     32508  0.0  0.0   1688   524 ?        D    14:00   0:00 /usr/sbin/smartctl -A /dev/hda

Weder ein "killall smartctl" noch einzelne kill -9 32301 helfen gegen diese Prozesse. Ich befürchte, dass mir da in Kürze die Prozesstabelle vollläuft und die Kiste garnichts mehr tut. War da nicht was mit max 64k Prozessen?

top sieht so aus:

top - 20:06:29 up 4 days,  1:44,  4 users,  load average: 215.49, 213.57, 209.07
Tasks: 341 total,   1 running, 339 sleeping,   0 stopped,   1 zombie
Cpu0  :  0.7%us,  0.7%sy,  0.0%ni,  0.0%id, 98.4%wa,  0.3%hi,  0.0%si,  0.0%st
Cpu1  :  0.0%us,  0.0%sy,  0.0%ni,  0.0%id,100.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   2076972k total,  2005476k used,    71496k free,   106300k buffers
Swap:  1048568k total,       64k used,  1048504k free,  1542364k cached

Die load finde ich ein wenig heftig.

Nun würde ich das System gerne wieder in den Griff bekommen und habe daher alle auf die Platte zugreifenden Programme beendet, um sie unmounten zu können. Leider hängt noch ein dummmerweise abgesetztes "la /srv/samba/":

# lsof /srv/samba/
COMMAND   PID USER   FD   TYPE DEVICE SIZE NODE NAME
bash    12645 paul    3r   DIR    3,5 4096    2 /srv/samba/

Auch dieser Prozess will sich nicht mit "kill -9" erlegen lassen.
Daher antwortet umount auch nur mit:

# umount -f /srv/samba
umount2: Device or resource busy
umount: /srv/samba: device is busy
umount2: Device or resource busy
umount: /srv/samba: device is busy

Was tun?


Danke & viele Grüße

Paul



Reply to: