[FRsAG] Syslog et Prometheus

Wallace wallace at morkitu.org
Mer 10 Juin 19:01:13 CEST 2020


Jolies stats, stocké avec Prometheus du coup?

Et les IO disques sur les 6To c'est pas trop lourd?

Le 10/06/2020 à 16:13, Olivier Bonvalet a écrit :
> Je ne pense pas qu'on puisse extrapoler, mais chez nous (on utilise
> Netdata en exporteur), avec en tout 25 millions de métriques pour ~600
> serveurs, raffraichis toutes les 10 secondes et conservées 6 mois, ça
> représente un peu moins de 6To.
>
> Mais... on stocke beaucoup (trop ?) de choses.
> (à vrai dire je trouve cette moyenne de 40k métriques par serveur bien
> trop élevée).
>
> Je précise qu'il s'agit uniquement des métriques, uniquement
> Prometheus. Nous n'avons pas encore de Loki dans la boucle.
>
>
> Le mercredi 10 juin 2020 à 15:01 +0200, Wallace a écrit :
>> Bonjour,
>>
>> Retour intéressant, quel poids pèse tes métriques stockées sur
>> Prometheus?
>>
>> Tu les stockes localement sur les edges ou sur ceux fédérant?
>>
>> Merci
>>
>> Le 10/06/2020 à 12:39, Charles-Christian Croix a écrit :
>>> Bonjour.
>>>
>>> Je suis un peu étonné de vos différentes conclusions sur
>>> Prometheus.
>>> Je gère actuellement un architecture Prometheus de 10 serveurs
>>> prometheus (2 par DC + 2 Fédération). Cette stack collecte plus de
>>> 500k métriques chaque minutes et garde un historique de 90 jours.
>>> Les métriques proviennent de environs 230 instances AWS EC2, 2
>>> cluster K8S, Cloudwatch et un certains nombre de service (Mysql,
>>> Mongo, Redis, etc..)
>>>
>>>
>>> Chaque API / APP fournit des métriques
>>> A chaque déploiement les dev peuvent mettre à jour leurs métriques
>>> métier
>>> L'alerting est aux petits oignons avec un CI/CD dédié permettant au
>>> dev de créer leur propre alerte sûr leur métrique métier.
>>> L'alerting comporte des règles sur le business (drop de vente, nb
>>> de panier abandonnés, baisse de recherche dans le moteur etc)
>>> Chaque squad reçois les alertes sur son channel slack
>>> L'infra et le business ont en plus des alerts pager duty
>>> Pour l'archivage ou la rétention longue duré il existe différente
>>> solution que nous n'utilisons pas. La solution qui monte est 
>>> https://thanos.io
>>> Nous pensons créé un service d'extraction de quelques métriques via
>>> l'API prometheus afin d'archivage sous forme de fichier csv (github
>>> est pleins de piste pour cela)
>>>
>>> Bref pour l'aspect monitoring Prometheus me semble un outil
>>> adapté. 
>>>
>>> Karles
>>> https://twitter.com/Karlesnine
>>>
>>>
>>> Le mer. 10 juin 2020 à 11:27, Wallace <wallace at morkitu.org> a
>>> écrit :
>>>> Merci Philippe et Raphael, je pense en effet que le KISS du
>>>> syslog à
>>>> l'ancienne me parait une bonne solution notamment pour
>>>> l'archivage
>>>> légal, j'avais pas pensé à renvoyé une autre fois vers un autre
>>>> composant, ça me parait évident maintenant.
>>>>
>>>> Le stockage de prometheus clairement non, au delà de 24h pour 25
>>>> machines de test c'est déjà des centaines de gigas, aucun
>>>> mécanisme de
>>>> compression et réduction disponible, c'est pas envisageable.
>>>>
>>>> On a essayé Victoria et on part pour le moment dessus car ils
>>>> promettent
>>>> la réduction sous peu mais ça ne tiendra pas la prod en l'état
>>>> c'est
>>>> évident.
>>>>
>>>> A mon avis on va simplifier la première version de la nouvelle
>>>> supervision, se limiter à 48h max, garder les logs syslog
>>>> centralisés et
>>>> tester en second palier toutes les bases de stockage et leurs
>>>> évolutions.
>>>>
>>>> Dernières questions car du coup si je reste sur du syslog faut
>>>> que je
>>>> redescende une problématique que devait régler la nouvelle
>>>> supervision.
>>>>
>>>> Comment vous rendez vos syslog hautement disponible pour parer à
>>>> une
>>>> coupure réseau d'un cloud par exemple? Vous envoyez chaque source
>>>> sur
>>>> deux syslogs sur deux réseaux différents (donc double stockage)
>>>> ou y a
>>>> des astuces pour faire une sorte de cluster actif actif?
>>>>
>>>> Et n'ayant pas regarder on peut scaler horizontalement derrière
>>>> des LB
>>>> des syslogs en tcp tout en écrivant dans les mêmes fichiers (peut
>>>> être
>>>> avec du sticky)?
>>>>
>>>> Encore merci
>>>>
>>>>
>>>> _______________________________________________
>>>> Liste de diffusion du FRsAG
>>>> http://www.frsag.org/
>>>>
>>>
>>> -- 
>>>
>>> Charles-Christian Croix
>>>
>>>
>>> _______________________________________________
>>> Liste de diffusion du FRsAG
>>> http://www.frsag.org/
>> _______________________________________________
>> Liste de diffusion du FRsAG
>> http://www.frsag.org/



Plus d'informations sur la liste de diffusion FRsAG