Re: load average: 250

To: debian-user-polish <debian-user-polish@lists.debian.org>
Subject: Re: load average: 250
From: m <marcinx0001@poczta.fm>
Date: Thu, 19 Feb 2004 01:09:16 +0100
Message-id: <[🔎] 144856314.20040219010916@poczta.fm>
Reply-to: m <marcinx0001@poczta.fm>

Witajcie,

> od 2 dni mam co kilka godzin chwilowe load average
> od 100 do 250.
> doslownie na kilka sekund.
> jak wylapac przyczyne ?
> w logach nic nadzwyczajnego...

witaj w klubie - ja mam podobnei na razie na jednym serwerze,
tyle ze z bardzo duza liczba userow.
podejrzewam poki co : slaby zasilacz, cos z karta sieciowa, samba ma
nieznaleziona dziure (2.2.8a), programik TC (HTB patched), rrdtool,
dizura w kernelu [2.4.24].
w podanej kolejnosci od najbardziej podejrzanego.
spora lista.

zrodlo ? windows pewnie jakis w LANie :]

load average gigantyczne, po wyjsciu ponad 15 serwer przestaje odpowiadac nawet na
pingi. po jakims czasie (srednio okolo 20 min) wraca do pracy.
zapodalem skrypta jak ponizej. w logach widzialem ze samba cos plula,
wylaczylem, ale nadal to samo.
uptime 15 a psaux procesy nie zajuma wiecej jak 2% czasu cpu
chyba jakis bug w kernelu sie szykuje... [mam troche kombinatorow w
sieciach]
za wiele oceniac nie moge bo do serwera mam kilkadziesiat kilometrow.

co ciekawe jak udalo mi sie - cudem - zalogowac na serwer przy LA=10 i
dalem ifconfig eth0 down od razu wyszstko bylo normalnie. po
podniesieniu eth0 (LAN) po 2 sekundach zerwalo polaczenie.

swoja droga jak to jest mozliwe ze LA jest 15 a suma %CPU mnie
wychodzi ponad 0,2 ?


-- 
Pozdrawiam,
Marcin.

==sux_psaux.sh odapalony z roota w tlo=============================
#!/bin/sh

kat=`date +%Y%m%d_%H`;
suf=`date +%M-%S`

sleep 1;
mkdir $kat 2> /dev/null;

uptime > $kat/psaux_${kat}-${suf}  &
ps aux 2>&1 | sort -k 3 -r >> $kat/psaux_${kat}-${suf}  &
sleep 5;
cat /proc/meminfo >> $kat/psaux_${kat}-${suf}  &
/usr/sbin/tcpdump -n -l -v -p -i eth0 -c 100 >> $kat/psaux_${kat}-${suf}_tcpdump_eth0 &
/usr/sbin/tcpdump -n -l -v -p -i eth1 -c 100 >> $kat/psaux_${kat}-${suf}_tcpdump_eth1 &

 if [ -e "./LOCK_STOP" ] ; then
  echo  "stop istnieje";
  exit;
 fi;

# echo "uruchamiam ponownie"

sleep 30
. ./$0 &

Reply to:

Prev by Date: Re: problem z arpwatchem ...
Next by Date: Re: your mail
Previous by thread: Re: Pakiety??
Next by thread: lm-sensors i naruszenie ochrony pamięci
Index(es):
- Date
- Thread