Bonsoir,
Le 30/10/2023 à 20:33, Jarod G. via FRsAG a écrit :
Holà la liste,
on est en train de réfléchir à la question des supervisions pour une petite infra qui peut être amenée à évoluer.
Je dit "des" car on remarque vite que un outil tout en un qui fait tout correctement, bah ça existe tout simplement pas.
On réfléchissait à monter donc au moins deux sups.
Une sup "infra" qui fait uniquement du SNMP/ICMP pour tout ce qui est réseau/serveurs/vm et une sup "applicative" qui elle va gérer le reste (état nginx, systemd, etc...).
Du coup on est en recherche d'idées, sur la partie "infra" on est plutôt familier avec Observium et LibreNMS même si on est pas fermé à autre chose. Quand à la partie "applicative" c'est un peu le flou (mix grafana+influx ?), surtout sur la partie alertes.
Avez vous des retex sur des solutions que vous utilisez déjà ? (ou des noms de solutions "entendues" mais jamais testées)
Notre seule et unique contrainte dans les solutions est que ça a besoin d'être gratuit (bonus si c'est libre).
Regarde Prometheus (https://prometheus.io/) qui est le truc à la mode (pas testé).
N'oublie pas la supervision sécurité, ne serait-ce que pour lire les logs et corréler des événements. Je sais ça paraît dingue mais en vrai ça aide aussi pour le debugging infra et applicatif puisque ça t'oblige à /vraiment/ regarder ce qu'il se passe en profondeur. Et ça ne coûtera pas plus cher si tu t'y prends bien pour mutualiser la supervision. Et ça va t'aider de savoir que le serveur mail s'est fait tabasser donc il n'a pas pu envoyer les messages de supervision pile le jour ultra-important où il fallait que rien ne se passe. :-)
Prévois un secours différent de la messagerie électronique, ça peut être une alerte sur de la messagerie instantanée par exemple (pas Slack qui est illégal en Union Européenne), avec un secours cellulaire (4G/5G) pour l'accès à Internet au cas où... (Ou bien pour envoyer des SMS purement celluaires...)
Un status genre Cachet (https://cachethq.io/) posé chez un autre hébergeur (éventuellement en coopération mutualisée/croisée entre personnes bien éduquées) peut aider aussi. Ça peut toujours aider d'avoir de la supervision hors-les-murs pour valider que tout marche bien de l'extérieur.
Pour finir, l'outillage c'est bien, l'organisation c'est bien aussi. Je ne vais pas défendre ITIL mais définir clairement ce qu'est un événement, un incident, une crise, en définir clairement les enjeux, les parties prenantes, les personnes à prévenir ou pas, le roulement des effectifs, les procédures RH pour gérer les coups durs psychologiques et/ou maintenir des conditions de travail correctes en temps de paix et en temps de guerre, tout ça c'est se donner les moyens de faire mieux au présent et de s'assurer au moins un peu l'avenir.
La supervision du système d'information c'est très simple : gouverner c'est prévoir.
Bien cordialement,