Re: load average: 250
Witajcie,
> od 2 dni mam co kilka godzin chwilowe load average
> od 100 do 250.
> doslownie na kilka sekund.
> jak wylapac przyczyne ?
> w logach nic nadzwyczajnego...
witaj w klubie - ja mam podobnei na razie na jednym serwerze,
tyle ze z bardzo duza liczba userow.
podejrzewam poki co : slaby zasilacz, cos z karta sieciowa, samba ma
nieznaleziona dziure (2.2.8a), programik TC (HTB patched), rrdtool,
dizura w kernelu [2.4.24].
w podanej kolejnosci od najbardziej podejrzanego.
spora lista.
zrodlo ? windows pewnie jakis w LANie :]
load average gigantyczne, po wyjsciu ponad 15 serwer przestaje odpowiadac nawet na
pingi. po jakims czasie (srednio okolo 20 min) wraca do pracy.
zapodalem skrypta jak ponizej. w logach widzialem ze samba cos plula,
wylaczylem, ale nadal to samo.
uptime 15 a psaux procesy nie zajuma wiecej jak 2% czasu cpu
chyba jakis bug w kernelu sie szykuje... [mam troche kombinatorow w
sieciach]
za wiele oceniac nie moge bo do serwera mam kilkadziesiat kilometrow.
co ciekawe jak udalo mi sie - cudem - zalogowac na serwer przy LA=10 i
dalem ifconfig eth0 down od razu wyszstko bylo normalnie. po
podniesieniu eth0 (LAN) po 2 sekundach zerwalo polaczenie.
swoja droga jak to jest mozliwe ze LA jest 15 a suma %CPU mnie
wychodzi ponad 0,2 ?
--
Pozdrawiam,
Marcin.
==sux_psaux.sh odapalony z roota w tlo=============================
#!/bin/sh
kat=`date +%Y%m%d_%H`;
suf=`date +%M-%S`
sleep 1;
mkdir $kat 2> /dev/null;
uptime > $kat/psaux_${kat}-${suf} &
ps aux 2>&1 | sort -k 3 -r >> $kat/psaux_${kat}-${suf} &
sleep 5;
cat /proc/meminfo >> $kat/psaux_${kat}-${suf} &
/usr/sbin/tcpdump -n -l -v -p -i eth0 -c 100 >> $kat/psaux_${kat}-${suf}_tcpdump_eth0 &
/usr/sbin/tcpdump -n -l -v -p -i eth1 -c 100 >> $kat/psaux_${kat}-${suf}_tcpdump_eth1 &
if [ -e "./LOCK_STOP" ] ; then
echo "stop istnieje";
exit;
fi;
# echo "uruchamiam ponownie"
sleep 30
. ./$0 &
Reply to: