Bonjour,

Retour intéressant, quel poids pèse tes métriques stockées sur Prometheus?

Tu les stockes localement sur les edges ou sur ceux fédérant?

Merci

Le 10/06/2020 à 12:39, Charles-Christian Croix a écrit :
>
> Bonjour.
>
> Je suis un peu étonné de vos différentes conclusions sur Prometheus.
> Je gère actuellement un architecture Prometheus de 10 serveurs
> prometheus (2 par DC + 2 Fédération). Cette stack collecte plus de
> 500k métriques chaque minutes et garde un historique de 90 jours. Les
> métriques proviennent de environs 230 instances AWS EC2, 2 cluster
> K8S, Cloudwatch et un certains nombre de service (Mysql, Mongo, Redis,
> etc..)
>
> Capture d’écran 2020-06-10 à 12.27.30.jpg
>
>   * Chaque API / APP fournit des métriques
>   * A chaque déploiement les dev peuvent mettre à jour leurs métriques
>     métier
>   * L'alerting est aux petits oignons avec un CI/CD dédié permettant
>     au dev de créer leur propre alerte sûr leur métrique métier.
>   * L'alerting comporte des règles sur le business (drop de vente, nb
>     de panier abandonnés, baisse de recherche dans le moteur etc)
>   * Chaque squad reçois les alertes sur son channel slack
>   * L'infra et le business ont en plus des alerts pager duty
>
> Pour l'archivage ou la rétention longue duré il existe différente
> solution que nous n'utilisons pas. La solution qui monte est
> https://thanos.io
> Nous pensons créé un service d'extraction de quelques métriques via
> l'API prometheus afin d'archivage sous forme de fichier csv (github
> est pleins de piste pour cela)
>
> Bref pour l'aspect monitoring Prometheus me semble un outil adapté.
>
> Karles
> https://twitter.com/Karlesnine
>
>
> Le mer. 10 juin 2020 à 11:27, Wallace <wall...@morkitu.org
> <mailto:wall...@morkitu.org>> a écrit :
>
>     Merci Philippe et Raphael, je pense en effet que le KISS du syslog à
>     l'ancienne me parait une bonne solution notamment pour l'archivage
>     légal, j'avais pas pensé à renvoyé une autre fois vers un autre
>     composant, ça me parait évident maintenant.
>
>     Le stockage de prometheus clairement non, au delà de 24h pour 25
>     machines de test c'est déjà des centaines de gigas, aucun mécanisme de
>     compression et réduction disponible, c'est pas envisageable.
>
>     On a essayé Victoria et on part pour le moment dessus car ils
>     promettent
>     la réduction sous peu mais ça ne tiendra pas la prod en l'état c'est
>     évident.
>
>     A mon avis on va simplifier la première version de la nouvelle
>     supervision, se limiter à 48h max, garder les logs syslog
>     centralisés et
>     tester en second palier toutes les bases de stockage et leurs
>     évolutions.
>
>     Dernières questions car du coup si je reste sur du syslog faut que je
>     redescende une problématique que devait régler la nouvelle
>     supervision.
>
>     Comment vous rendez vos syslog hautement disponible pour parer à une
>     coupure réseau d'un cloud par exemple? Vous envoyez chaque source sur
>     deux syslogs sur deux réseaux différents (donc double stockage) ou y a
>     des astuces pour faire une sorte de cluster actif actif?
>
>     Et n'ayant pas regarder on peut scaler horizontalement derrière des LB
>     des syslogs en tcp tout en écrivant dans les mêmes fichiers (peut être
>     avec du sticky)?
>
>     Encore merci
>
>
>     _______________________________________________
>     Liste de diffusion du FRsAG
>     http://www.frsag.org/
>
>
>
> -- 
>
> Charles-Christian Croix
>
> _______________________________________________
> Liste de diffusion du FRsAG
> http://www.frsag.org/
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à