Salut,
On Mon, Jun 28, 2021 at 09:40:50AM +0200, Julien Escario wrote:
Le 25/06/2021 à 17:50, Raphael Mazelier a écrit :
On 25/06/2021 16:33, Mathieu Corbin wrote:
Je pense qu'il est dans tous les cas important de décorréler ce qui génère l'alerte (Icinga ou autre) de ce qui gère l'alerte ensuite (réveiller les bonnes personnes, gestion du calendrier/des overrides, déduplication, auto acquittement...).
+100.
Gérer un on-call sans ce type d'outil c'est quand meme vraiment painful (PD, VictorOps ou autres).
Ok, merci du retour. On va faire un test de PagerDuty du coup. Mais dépendre d'un service tiers, aussi fiable soit-il, me gêne quand même pour quelque chose d'aussi critique.
Sans intention de t'offenser mais plutôt dans celle de parler clairement, cette remarque me paraît issue d'une doctrine plus que d'un raisonnement.
Je m'explique. Si vous n'avez aucun fournisseur de services tiers pour le moment (e.g. cloud), alors je comprends que passer le cap soit un changement de doctrine.
Mais si on parle simplement de criticalité, je ne suis pas d'accord sur le fait de dire "pas de service tiers, c'est trop critique". Un service d'alerting doit avoir un minimum de dépendances, c'est une best practice. Mais le fait que ce soit outsourcé ou pas n'a pas de rapport.
Je ne connais pas PagerDuty, mais d'après leur nom, je dirais que l'alerting c'est leur coeur de métier. Donc premièrement, ils ont probablement beaucoup plus de monde travaillant sur leur service que ton équipe ne pourra jamais en mettre juste sur l'alerting. Ensuite, il est dans leur intérêt de fournir un service très fiable, il en va de la survie de la société.
Je ne dis pas que tu dois prendre PagerDuty les yeux fermés, un peu de recherche sur leur fiabilité, les avantages et les inconvénients est nécessaire. Mais je voulais juste essayer de rectifier cette fausse best practice "pas de service tiers, c'est trop critique". Ca peut être le cas, mais c'est plus subtil.