[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Metrologie d'un serveur Windows via Nagios



Bonjour,

Tu peux regarder du coté de NSClient++ qui te permettra différents
check depuis tes hôtes windows.
Je t'invite à te diriger vers des sites spécialisés
(monitoring-fr.org par exemple).

Le Wed Aug 25 2010 �8:38:41PM +0200, Thierry Leurent dit :
> Bonjour,
> 
> Voilà, encore une fois, j'ai besoin de votre expertise. 
> Mettons les choses en place, pour un projet spécifique, nous avons un certain 
> nombre de machines se trouvant dans 2 localisations différentes.
> 
> La première localisation, chez nous, contient la production tandis que la 
> seconde est un site DRP/Développement situé chez un prestataire extérieur. Ces 
> 2 sites sont reliés par 2 fibres optiques qui nous sont réservées (jusqu'à quel 
> point je l'ignore). Chose certaine, ces fibres partent d'un rack du site de 
> production et arrive dans un de nos rack du site DRP. Une est destinée à la 
> synchronisation des SAN tandis que l'autre sert pour le reste du traffic.
> 
> Dans chaque lieu, nous disposons de 2 racks qui contiennent nos divers 
> serveurs. 
> C'est racks sont identiques 2 à 2. Nous avons des Linux et des Windows 2003.
> 
> Le problème est le suivant :
> Régulèrement, les 2 serveurs Windows du centre DRP se plantent. 
> Le phénomène est le suivant : 
> - Le serveur re répond plus aux solicitaitons réseau (ping, remote control, 
> ....).
> - Sur la console physique, nous voyons un pop-up indiquant que le système n'a 
> pas pu sauvegarder un fichier à cause d'un problème réseau ou hardware. On peut 
> presser sur OK. Après une dizaine de ces messages semblables où seul le nom de 
> fichier change, nous arrivons au loggin. 
> - Lorsque nous voulons nous logger, nous avons un message indiquant que le 
> système ne dispose plus d'assez de ressources pour cette opération. 
> - La seule solution est de faire un power off/ power on et là tout repart sans 
> problème.
> 
> Selon la machine et le moment, la prériode d'uptime a duré entre 14 jours et 3 
> mois.
> 
> Les constatations
> 
> Les points communs entre les 2 machines :
> - Elles tournent sous windows 2003.
> - Elles ont des cartres réseaux broadcom GigaEthernet du même modèle.
> 
> Les différences :
> - Une machine est de marque Fuji. Une machine est de marque Dell.
> - Une machine est un node server Networker. Une machine est un DC.
> 
> Les choses étonnantes :
> - Des machines identiques sur le même site mais tournant sous Linux ne 
> plantent jamais.
> - Des machines identiques sur l'autre site ne plantent jamais.
> 
> Conclusion!?
> Je n'ai jamais vu ce problème ailleurs, je ne vois rien dans les logs.
> La machine Fuji à vu sont hardware changé 2 fois sans aucun changement.
> 
> Actuellement, je me demande si il n'y a pas une interaction entre des paquets 
> IP qui seraient le déclencheur et le driver broadcom. Ce driver réagirait mal 
> à certains paquets, il remplirait la mémoire ou une zone mémoire soit en 
> accumulant des paquets qu'il ne peut traiter soit via des memory leaks.
> Ce qui empecherait d'autres éléménts système de fonctionner parce qu'il 
> n'aurait plus de place pour les files réseaux ou le buffer pour l'accès disques.
> C'est un théorie, elle vaut ce qu'elle vaut mais je ne vois rien d'autre.
> 
> J'ai mis en place un serveur de monitoring Nagios. Depuis quelques jours, j'ai 
> configuré Nagios pour faire dela métrologie et j'y ai ajouté PNP4Nagios pour 
> faire de joli graphiques.
> Pour l'instant, ces magnifiques "courbes" me donnent les informations de base 
> comme la charge CPU ou l'occupation mémoire.
> Cela ne m'aide pas vraiment pour cerner la cause de mon problème. Je cherche 
> des solutions éprouvées pour monitorer les différentes parties de la mémoire 
> (Kernel, Buffer, ...), le paging file ou l'occupation mémoire de certains 
> process.
> 
> Demande
> 
> Mon système peut intérroger le serveur Windows via :
> - Un script sur le serveur Windows (déclenché par l'agent Nagios).
> - Une requête SNMP.
> - Un query WMI.
> 
> Je n'ai pas trouvé de requêtes SNMP qui me convienne.
> J'ai regardé du côté de WMI mais j'ai du mal à interprêter les données que ces 
> requêtes me retournent, je n'arrive pas à lier les résultats avec les valeurs 
> retournées par d'autres applications comme le taskmanager.
> Par exemple, j'ai "lu" les valeurs du paging file afin de connaitre le 
> pourcentage utilisé, je me retrouve avec un entier de grande taille. Comment 
> interpréter ce nombre pour le transformer en quelque chose de valable. 
> 
> Si vous avez déjà eu l'occasion :
> - De monitorer de manière fine un serveur Windows.
> - Vous avez déjà eu ce genre de plantage.
> - Vous connaissez bien WMI et/ou SNMP.
> 
> Je serais heureux de partager vos connaissances.
>  
> Merci.
> 
> Thierry
> 
-- 
David Dumortier


Reply to: