Salut,

Pagerduty ici.

Je pense qu'il est dans tous les cas important de décorréler ce qui génère l'alerte (Icinga ou autre) de ce qui gère l'alerte ensuite (réveiller les bonnes personnes, gestion du calendrier/des overrides, déduplication, auto acquittement...).
Le double monitoring comme tu le mentionnes n'est pas vraiment intéressant car tu seras coincé le jour où tu voudras faire des alertes sur les métriques de Telegraf.

Cordialement,


Le ven. 25 juin 2021 à 16:15, Julien Escario <julien.escario@altinea.fr> a écrit :
Bonjour,

Petite problématique du vendredi : actuellement, nous utilisons Icinga2
avec l'excellent Anag [1] de Damian Degois pour nous réveiller au milieu
de la nuit si un morceau de notre infra part en vrille (j'aurais pu
utiliser 'torche' mais je crois que les masses ne sont pas prêtes encore).

Souhaitant basculer le stockage sur InfluxDB (question de perf), nous
aimerions utiliser Telegraf pour faire la remontée des métriques mais
cela nous empêche d'utiliser la partie API de Icinga2. Ou alors il faut
faire un double monitoring : alertes SNMP & Ping avec Icinga2 et
métriques via Telegraf. Je ne trouve pas ça très satisfaisant.

Je me suis pas mal documenté sur des exemples que j'ai trouvés ici et là
mais on dirait que la plupart des boites ont des gens qui regardent un
écran 24h/24 et que personne ne voit l'intérêt de pouvoir dormir de
temps à autre.

Les rares qui font ça passent par des services tiers type Pagerduty mais
ça ne me tente pas non plus, pour une question d'indépendance sur un
sujet qui est quand même très critique. Pas très envie de multiplier les
SPoF.

Du coup, ma question : et vous, comment faites vous ?

A) Pagerduty
B) un insomniaque dans l'équipe
C) la réponse D

Merci d'avance pour votre partage !

Julien

[1] 
https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag


_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/