Autopsie d'un "pseudo crash"
Bonjour,
Une machine distante fonctionnant sous Debian - Linux version
2.6.26-2-486 (Debian 2.6.26-15) - fait des siennes...
Et comme elle n'est pas juste à la porte d'à coté mais un peu plus loin
je ne peux pas intervenir en direct lorsqu'elle est dans les choux.
Le "dernier observateur" sur cette machine a constaté les symptômes
suivants :
- plus de connexion réseau possible depuis l'extérieur cad pas de
réponse au ping et les connexions telnet sur des port connus restent
sans réponses ;
- sur la console plus de login cad pas de possibilité de saisir un
login et l'appui sur enter ne fait rien, mais pas de message comme
quoi un problème système aurait survenu et aurait provoqué l'arrêt du
système ;
- lorsque l'on branche et débranche un câble réseau, la machine réagit
et émet un bip (ifplugd est installé) ;
- un reboot "au bouton" fait repartir la bête...
D'après ces symptômes je penche pour un manque de ressource comme de la
mémoire (une fuite dans mes programmes zut alors) ou bien une ressource
bloquante comme plus de process possible (welcome to zombieland), a
priori je ne pense pas à un pb de disque à cause du comportement au
reboot (à moins d'une saturation de /tmp).
J'ai récupéré l'ensemble des log de /var/log, mais là je suis un peu
comme une poule devant un couteau : que faut-il observer et ces
fichiers sont-ils suffisant pour un diagnostique a posteriori ?
En observant les auth.log je constate qu'à partir d'un moment les log
horaire du cron s'arrêtent et ce jusqu'au reboot suivant => ce qui me
conforte dans mon hypothèse d'une saturation de ressources.
Par contre ni syslog, ni d'autres fichiers ne semblent indiquer la
cause de ce "décès"...
Ceci me porte sur une autre piste : comment prévenir cette saturation
avant qu'elle ne soit "létale" => c'est à dire forcer un reboot avant
qu'il ne soit trop tard (ça ne corrige pas mais ça soulage) ?
Je pense au watchdog : la cible est une geode qui dispose d'un watchdog
matériel/soft comment le mettre en service ? je n'ai pas trouvé de
documentation "claire" sur ce sujet jusqu'à présent...
Je soumets tout cela à votre sagacité...
Cordialement,
--
Yann.
Reply to: