[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Autopsie d'un "pseudo crash"



Bonjour,

Une machine distante fonctionnant sous Debian - Linux version
2.6.26-2-486 (Debian 2.6.26-15) - fait des siennes... 

Et comme elle n'est pas juste à la porte d'à coté mais un peu plus loin
je ne peux pas intervenir en direct lorsqu'elle est dans les choux.

Le "dernier observateur" sur cette machine a constaté les symptômes
suivants :
- plus de connexion réseau possible depuis l'extérieur cad pas de
  réponse au ping et les connexions telnet sur des port connus restent
  sans réponses ;
- sur la console plus de login cad pas de possibilité de saisir un
  login et l'appui sur enter ne fait rien, mais pas de message comme
  quoi un problème système aurait survenu et aurait provoqué l'arrêt du
  système ;
- lorsque l'on branche et débranche un câble réseau, la machine réagit
  et émet un bip (ifplugd est installé) ;
- un reboot "au bouton" fait repartir la bête...

D'après ces symptômes je penche pour un manque de ressource comme de la
mémoire (une fuite dans mes programmes zut alors) ou bien une ressource
bloquante comme plus de process possible (welcome to zombieland), a
priori je ne pense pas à un pb de disque à cause du comportement au
reboot (à moins d'une saturation de /tmp).

J'ai récupéré l'ensemble des log de /var/log, mais là je suis un peu
comme une poule devant un couteau : que faut-il observer et ces
fichiers sont-ils suffisant pour un diagnostique a posteriori ?

En observant les auth.log je constate qu'à partir d'un moment les log
horaire du cron s'arrêtent et ce jusqu'au reboot suivant => ce qui me
conforte dans mon hypothèse d'une saturation de ressources.

Par contre ni syslog, ni d'autres fichiers ne semblent indiquer la
cause de ce "décès"...

Ceci me porte sur une autre piste : comment prévenir cette saturation
avant qu'elle ne soit "létale" => c'est à dire forcer un reboot avant
qu'il ne soit trop tard (ça ne corrige pas mais ça soulage) ?

Je pense au watchdog : la cible est une geode qui dispose d'un watchdog
matériel/soft comment le mettre en service ? je n'ai pas trouvé de
documentation "claire" sur ce sujet jusqu'à présent...

Je soumets tout cela à votre sagacité...

Cordialement,

--
Yann.


Reply to: