Le mardi 20 juillet 2010 à 09:20, Richard DEMONGEOT écrivait:
Ca m'intéresse, je veux bien en savoir plus ;)
Cela m'intéresse aussi, je suis en train de voir comment je peux faire cela.
dans les grandes lignes, c'est encore un labo de test chez moi. J'utlise des outils existants, j'en ai marre de reinventer la roue ;)
Le contexte : On a un parc super hétérogène basé sur moultitude de petites archis clients (D'un serveur à une grosse cinquantaine de serveurs). On a besoin souvent de faire des check applicatifs (en general en cherchant une string dans une page). Actuellement on a un vieil outil en bois (What's Up gold 4.x pour les archéologues), un nagios pour le equimements réseaux, un nagios qui collecte les nagios des clients (une quinzaine) et des filiales en Chine et au canada et un nagios pour le tout venant. Au dessus, on a un outil de gestion de event 'BMC Impact Explorer' qui lui recoit les events depuis les collecteurs. Le probleme principal vient de : - on doit avoir un bon 30% de fausses alertes -> des faux event dans BMC. - L'outil historique (What'Up) crash tout seul sans que cela se voit (l'interface est up mais plus mise a jour, mais le process est la mais il se touche la nouille). quand il ne le fait bas, tu te bouffe des 'null pointers' lors d'un click sur deux. en general, elles apparaisent par pack de 150 ces petites box windows :/ - On a pas de perfdatas fiables hors trucs spécifiques. - nagios + nsca fait nawak quand il se prends 500 alertes en simultané, je vous raconte pas quand c'est 6000 et souvent il dit qu'il a rien recu. - la conf d'un host la dedans et t'es vite proche de la catastophe Volumetrie : 3000 serveurs avec peu de check pour le moment (environ 6000 services), un bon 20000 a terme.
Le concept : - On garde Nagios Core pour le moteur de collecte, car mine de rien il marche pas mal du tout (au pire pour les intégriste, y'a icinga qui marche tout pareil et qui peut replacer nagios au pied levé sans modif de conf) - On jette What's Up, Nsca, pnp4nagios, centreon et autres machins type ndo - On garde les nagios clients (on peut pas les changer comme ça) - On use et abuse de mklivestatus, un broker qui permet d'acceder au nagios de facon quasi-instantanée qui nous permet : * de ne pas utliser les #@!!#] de cgi de nagios mais d'utliser Thruk à la place. Cette appli en catalyst utlise le socket mk pour accerder à la demande aux infos de x serveurs nagios * via un script, on peut auto-feeder de facon rapide un cacti avec toutes les perfdatas de nagios sans activer la couche perf_data de nagios (yabon rapide) - On utlise NagiosDNX pour faire les gros collecteurs, c'est un broker qui permet de faire faire le check par x nodes et refiler le resultat a nagios. - On conserve du coup toute methode de check type nagios. - On se retrouve avec X serveurs nagios qui sont au même niveau qui colecte dans leur coins, et on consolide les infos avec Thruk / Cacti sur une ou plusieurs machines de management. (on a prevu un DNX pour le tout venant, les colecteurs clients, un ou deux collecteur hors core reseau, voire hors reseau, etc .. )
NagiosDNX : http://dnx.sourceforge.net/ mkliveStatus : - overview broker http://nagios.larsmichelsen.com/mklivestatus-and-nagvis-making-the-ndo-needl... - le projet check_mk http://mathias-kettner.de/check_mk_download.html - live.php : http://nagios.larsmichelsen.com/livestatusslave/
Thruk : http://www.thruk.org/index.php (pour info, sni le dev est sur #nagios@freenode )
Coté perf : pour lister 2000 services avec toutes les infos liés dans nagios avec le webservice php, faut compter 0.02 secondes.
coté intéret : des modules et des systmème bien distincts qui fonctionnent indépendament. les collecteurs ne se parlent pas entre eux, les applicatifs sont autonomes. par exemple un problème de graph dans cacti n'impact que cacti est n'a rien a voir avec un problème nagios. Cacti ne sais même pas que nagios est sa source de donnée.
Les trucs encore a faire/tester/integrer/inventer : -> gestion centrale des confs nagios -> test des agents check_mk windows et linux -> mon patron trouvera bien des trucs à ajouter aux specs
je ferais surement un bout de doc quand ce sera plus carré avec des dessins itou.
N'hésitez pas si vous m'avez trouver pas clair, je n'ai pris qu'un seul café la ;)
H.S à en voir les présentation, hier nous avions plusieurs présentations de jeunes (dans la vingtaine), aujourd'hui c'est plutôt les présentations de personnes ayant une 20aine d'année de métier :].
Troll du mardi : Les jeunes sont plus rapides que les moins jeunes :P.
nan, c'est juste qu'on a un métier, justement ;-D
F.