Re: Metrologie d'un serveur Windows via Nagios
Bonjour,
Tu peux regarder du coté de NSClient++ qui te permettra différents
check depuis tes hôtes windows.
Je t'invite à te diriger vers des sites spécialisés
(monitoring-fr.org par exemple).
Le Wed Aug 25 2010 �8:38:41PM +0200, Thierry Leurent dit :
> Bonjour,
>
> Voilà, encore une fois, j'ai besoin de votre expertise.
> Mettons les choses en place, pour un projet spécifique, nous avons un certain
> nombre de machines se trouvant dans 2 localisations différentes.
>
> La première localisation, chez nous, contient la production tandis que la
> seconde est un site DRP/Développement situé chez un prestataire extérieur. Ces
> 2 sites sont reliés par 2 fibres optiques qui nous sont réservées (jusqu'à quel
> point je l'ignore). Chose certaine, ces fibres partent d'un rack du site de
> production et arrive dans un de nos rack du site DRP. Une est destinée à la
> synchronisation des SAN tandis que l'autre sert pour le reste du traffic.
>
> Dans chaque lieu, nous disposons de 2 racks qui contiennent nos divers
> serveurs.
> C'est racks sont identiques 2 à 2. Nous avons des Linux et des Windows 2003.
>
> Le problème est le suivant :
> Régulèrement, les 2 serveurs Windows du centre DRP se plantent.
> Le phénomène est le suivant :
> - Le serveur re répond plus aux solicitaitons réseau (ping, remote control,
> ....).
> - Sur la console physique, nous voyons un pop-up indiquant que le système n'a
> pas pu sauvegarder un fichier à cause d'un problème réseau ou hardware. On peut
> presser sur OK. Après une dizaine de ces messages semblables où seul le nom de
> fichier change, nous arrivons au loggin.
> - Lorsque nous voulons nous logger, nous avons un message indiquant que le
> système ne dispose plus d'assez de ressources pour cette opération.
> - La seule solution est de faire un power off/ power on et là tout repart sans
> problème.
>
> Selon la machine et le moment, la prériode d'uptime a duré entre 14 jours et 3
> mois.
>
> Les constatations
>
> Les points communs entre les 2 machines :
> - Elles tournent sous windows 2003.
> - Elles ont des cartres réseaux broadcom GigaEthernet du même modèle.
>
> Les différences :
> - Une machine est de marque Fuji. Une machine est de marque Dell.
> - Une machine est un node server Networker. Une machine est un DC.
>
> Les choses étonnantes :
> - Des machines identiques sur le même site mais tournant sous Linux ne
> plantent jamais.
> - Des machines identiques sur l'autre site ne plantent jamais.
>
> Conclusion!?
> Je n'ai jamais vu ce problème ailleurs, je ne vois rien dans les logs.
> La machine Fuji à vu sont hardware changé 2 fois sans aucun changement.
>
> Actuellement, je me demande si il n'y a pas une interaction entre des paquets
> IP qui seraient le déclencheur et le driver broadcom. Ce driver réagirait mal
> à certains paquets, il remplirait la mémoire ou une zone mémoire soit en
> accumulant des paquets qu'il ne peut traiter soit via des memory leaks.
> Ce qui empecherait d'autres éléménts système de fonctionner parce qu'il
> n'aurait plus de place pour les files réseaux ou le buffer pour l'accès disques.
> C'est un théorie, elle vaut ce qu'elle vaut mais je ne vois rien d'autre.
>
> J'ai mis en place un serveur de monitoring Nagios. Depuis quelques jours, j'ai
> configuré Nagios pour faire dela métrologie et j'y ai ajouté PNP4Nagios pour
> faire de joli graphiques.
> Pour l'instant, ces magnifiques "courbes" me donnent les informations de base
> comme la charge CPU ou l'occupation mémoire.
> Cela ne m'aide pas vraiment pour cerner la cause de mon problème. Je cherche
> des solutions éprouvées pour monitorer les différentes parties de la mémoire
> (Kernel, Buffer, ...), le paging file ou l'occupation mémoire de certains
> process.
>
> Demande
>
> Mon système peut intérroger le serveur Windows via :
> - Un script sur le serveur Windows (déclenché par l'agent Nagios).
> - Une requête SNMP.
> - Un query WMI.
>
> Je n'ai pas trouvé de requêtes SNMP qui me convienne.
> J'ai regardé du côté de WMI mais j'ai du mal à interprêter les données que ces
> requêtes me retournent, je n'arrive pas à lier les résultats avec les valeurs
> retournées par d'autres applications comme le taskmanager.
> Par exemple, j'ai "lu" les valeurs du paging file afin de connaitre le
> pourcentage utilisé, je me retrouve avec un entier de grande taille. Comment
> interpréter ce nombre pour le transformer en quelque chose de valable.
>
> Si vous avez déjà eu l'occasion :
> - De monitorer de manière fine un serveur Windows.
> - Vous avez déjà eu ce genre de plantage.
> - Vous connaissez bien WMI et/ou SNMP.
>
> Je serais heureux de partager vos connaissances.
>
> Merci.
>
> Thierry
>
--
David Dumortier
Reply to: