Le 26/08/2017 à 13:13, Michel Blanc a écrit :
Le 26/08/2017 à 10:46, ML a écrit :
En fait, j'ai carrément abandonné le monitoring, pour ne faire que de la
métrologie avec des seuils sur les métriques appropriées (disk free,
taux de 5xx, you name it). Tant qu'à emmerder les serveurs pour savoir
s'ils vont bien, autant mesurer et collecter des métriques. On peut tout
transformer en chiffre mesurable (nombre de noeuds dans un cluster, RTT
avec un serveur) et alerter si les métriques n'arrivent plus.
J'ai quelques stacks qui sont surveillées par influx/grafana et jusqu'à
présent, je n'ai jamais ressenti le besoin de (re)mettre en service un
outil de monitoring dédié. IMHO, c'est bien plus souple en utilisant la
métrologie pure. C'est pluggué sur email/slack/sms et ça va plutôt bien.
Par contre, pour le coup, il faut monitorer la métrologie :D
Un uptimerobot/statuscake/pingdom suffisent pour ça.*
par curiosité, combien de temps tu as passé pour déployer tout ça ?
C'est assez rapide de déployer un influxdb et un grafana pour recevoir
les métriques. Sur chaque serveur, c'est telegraf qui collecte et
balance à influx.
La aussi le déploiement est très rapide (j'utilise ansible mais même à
la main, ça prend 10 minutes conf incluse). En général je déploie le
plugin statsd de telegraf qui permet à des scripts externes (ou du code
applicatif) d'envoyer facilement des métriques qui ne sont pas
collectées nativement par telegraf (la conf est un peu plus trial &
error pour cette partie, à cause du système de templating un peu abscons).
Le plus long, de loin, c'est de mettre en place les dashboards qui vont
bien dans grafana, et de créer les alertes. C'est assez itératif
notamment pour mettre les bon seuils sur les alertes.
Salut,
Pour un déploiement rapide d'une collecte de métriques, nous utilisons
collectd + influxdb + grafana
et surtout avoir des dashboards rapidement grâce à ce scripted dashboard
dans grafana : https://github.com/anryko/grafana-influx-dashboard
Une astuce pour que collectd transmette en chiffré ou avec une clé
d'autorisation est d'avoir un collectd "proxy" sur le serveur influxdb
qui lui rebalance dans influxdb. Si besoin des configurations demandez.
Les serveurs surveillés étant gérés par un orchestrateur (puppet dans
notre cas) le déploiement se fait facilement.
+
--
🐧 M. Yann Richard
🎓 Université Rennes 2
Direction du Système d'Information - DSI
🕸http://www.univ-rennes2.fr/dsi
└─ Pôle Infrastructure
└─ Serveurs - Stockages - Sauvegardes
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/