[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Metrologie d'un serveur Windows via Nagios



Bonjour,

Voilà, encore une fois, j'ai besoin de votre expertise. 
Mettons les choses en place, pour un projet spécifique, nous avons un certain 
nombre de machines se trouvant dans 2 localisations différentes.

La première localisation, chez nous, contient la production tandis que la 
seconde est un site DRP/Développement situé chez un prestataire extérieur. Ces 
2 sites sont reliés par 2 fibres optiques qui nous sont réservées (jusqu'à quel 
point je l'ignore). Chose certaine, ces fibres partent d'un rack du site de 
production et arrive dans un de nos rack du site DRP. Une est destinée à la 
synchronisation des SAN tandis que l'autre sert pour le reste du traffic.

Dans chaque lieu, nous disposons de 2 racks qui contiennent nos divers 
serveurs. 
C'est racks sont identiques 2 à 2. Nous avons des Linux et des Windows 2003.

Le problème est le suivant :
Régulèrement, les 2 serveurs Windows du centre DRP se plantent. 
Le phénomène est le suivant : 
- Le serveur re répond plus aux solicitaitons réseau (ping, remote control, 
....).
- Sur la console physique, nous voyons un pop-up indiquant que le système n'a 
pas pu sauvegarder un fichier à cause d'un problème réseau ou hardware. On peut 
presser sur OK. Après une dizaine de ces messages semblables où seul le nom de 
fichier change, nous arrivons au loggin. 
- Lorsque nous voulons nous logger, nous avons un message indiquant que le 
système ne dispose plus d'assez de ressources pour cette opération. 
- La seule solution est de faire un power off/ power on et là tout repart sans 
problème.

Selon la machine et le moment, la prériode d'uptime a duré entre 14 jours et 3 
mois.

Les constatations

Les points communs entre les 2 machines :
- Elles tournent sous windows 2003.
- Elles ont des cartres réseaux broadcom GigaEthernet du même modèle.

Les différences :
- Une machine est de marque Fuji. Une machine est de marque Dell.
- Une machine est un node server Networker. Une machine est un DC.

Les choses étonnantes :
- Des machines identiques sur le même site mais tournant sous Linux ne 
plantent jamais.
- Des machines identiques sur l'autre site ne plantent jamais.

Conclusion!?
Je n'ai jamais vu ce problème ailleurs, je ne vois rien dans les logs.
La machine Fuji à vu sont hardware changé 2 fois sans aucun changement.

Actuellement, je me demande si il n'y a pas une interaction entre des paquets 
IP qui seraient le déclencheur et le driver broadcom. Ce driver réagirait mal 
à certains paquets, il remplirait la mémoire ou une zone mémoire soit en 
accumulant des paquets qu'il ne peut traiter soit via des memory leaks.
Ce qui empecherait d'autres éléménts système de fonctionner parce qu'il 
n'aurait plus de place pour les files réseaux ou le buffer pour l'accès disques.
C'est un théorie, elle vaut ce qu'elle vaut mais je ne vois rien d'autre.

J'ai mis en place un serveur de monitoring Nagios. Depuis quelques jours, j'ai 
configuré Nagios pour faire dela métrologie et j'y ai ajouté PNP4Nagios pour 
faire de joli graphiques.
Pour l'instant, ces magnifiques "courbes" me donnent les informations de base 
comme la charge CPU ou l'occupation mémoire.
Cela ne m'aide pas vraiment pour cerner la cause de mon problème. Je cherche 
des solutions éprouvées pour monitorer les différentes parties de la mémoire 
(Kernel, Buffer, ...), le paging file ou l'occupation mémoire de certains 
process.

Demande

Mon système peut intérroger le serveur Windows via :
- Un script sur le serveur Windows (déclenché par l'agent Nagios).
- Une requête SNMP.
- Un query WMI.

Je n'ai pas trouvé de requêtes SNMP qui me convienne.
J'ai regardé du côté de WMI mais j'ai du mal à interprêter les données que ces 
requêtes me retournent, je n'arrive pas à lier les résultats avec les valeurs 
retournées par d'autres applications comme le taskmanager.
Par exemple, j'ai "lu" les valeurs du paging file afin de connaitre le 
pourcentage utilisé, je me retrouve avec un entier de grande taille. Comment 
interpréter ce nombre pour le transformer en quelque chose de valable. 

Si vous avez déjà eu l'occasion :
- De monitorer de manière fine un serveur Windows.
- Vous avez déjà eu ce genre de plantage.
- Vous connaissez bien WMI et/ou SNMP.

Je serais heureux de partager vos connaissances.
 
Merci.

Thierry

 


Reply to: