Re: [FRsAG] Alerting Grafana vs Icinga2

28 Jun 2021


      De notre côté on a développé un test cyclique qui envoie une notif très
régulièrement vers un robot à l'extérieur qui nous alerte s'il ne reçoit
rien. C'est compliqué d'aller plus loin...
Le lun. 28 juin 2021 à 11:18, Wallace wallace@morkitu.org a écrit :
...
Bonjour Julien,
De notre côté on était Nagios et Munin on a presque fini de migrer tout
sur Prometheus / Grafana, il restera un bout de Nagios pour les
supervisions à gérer à la main hors infogérance et dépannage. Car on a
profité
Pour la notification on a des règles assez strictes qui ne nous réveillent
que quand nécessaire et que pour des services sur lesquels nous avons la
main.
Pour la notification question indépendance on a aussi fait ce choix et
nous avons deux mini pc avec des modem gsm pour envoyer les textos. Un
petit programme perl fait le load balancing des alertes sur les deux
boitiers et est capable de gérer le failover si un des deux boitiers n'est
pas joignable (ils sont sur des réseaux IP et opérateur gsm différents dans
des lieux différents).
Les services extérieurs de notification vous faites comment quand c'est
votre backbone / réseau managé par un tiers qui tombe et que vos sondes ne
sont plus capables d'envoyer leurs notifications? Pour avoir déjà connu ce
genre de souci, c'est un boitier sms sur un des sites de production
joignable en local par un alertmanager, et l'autre boitier sms en dehors de
notre réseau avec une autre sonde Nagios / Prom qui monitore depuis
l'extérieur notre réseau.
Quand y a une isolation réseau on a double notification ce qui confirme
que c'est pas juste un bgp qui bagote.
Voilà pour nous
Le 25/06/2021 à 16:13, Julien Escario a écrit :
Bonjour,
Petite problématique du vendredi : actuellement, nous utilisons Icinga2
avec l'excellent Anag [1] de Damian Degois pour nous réveiller au milieu
de la nuit si un morceau de notre infra part en vrille (j'aurais pu
utiliser 'torche' mais je crois que les masses ne sont pas prêtes encore).
Souhaitant basculer le stockage sur InfluxDB (question de perf), nous
aimerions utiliser Telegraf pour faire la remontée des métriques mais
cela nous empêche d'utiliser la partie API de Icinga2. Ou alors il faut
faire un double monitoring : alertes SNMP & Ping avec Icinga2 et
métriques via Telegraf. Je ne trouve pas ça très satisfaisant.
Je me suis pas mal documenté sur des exemples que j'ai trouvés ici et là
mais on dirait que la plupart des boites ont des gens qui regardent un
écran 24h/24 et que personne ne voit l'intérêt de pouvoir dormir de
temps à autre.
Les rares qui font ça passent par des services tiers type Pagerduty mais
ça ne me tente pas non plus, pour une question d'indépendance sur un
sujet qui est quand même très critique. Pas très envie de multiplier les
SPoF.
Du coup, ma question : et vous, comment faites vous ?
A) Pagerduty
B) un insomniaque dans l'équipe
C) la réponse D
Merci d'avance pour votre partage !
Julien
[1] https://play.google.com/store/apps/details?id=info.degois.damien.android.aNa...

Liste de diffusion du FRsAGhttp://www.frsag.org/

Liste de diffusion du FRsAG
http://www.frsag.org/
-- 
Matthieu Noirbusson

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

Re: [FRsAG] Alerting Grafana vs Icinga2