Aloha,
Chez Neutrinet (une petite association belge) on a eu cette réflexion
que nous avons documentée ici :
https://wiki.neutrinet.be/fr/rapports/2021/07-04. Je pense que pour la
plupart d'entre vous, on enfonce des portes ouvertes :)
Chez nous, on utilise VictoriaMetrics (https://victoriametrics.com) pour
stocker les métriques au format Prometheus. Ce choix est dû que l'on
voulait garder les métriques sur du temps long et pas spécialement sur
du NVMe. Avec Prometheus vanilla, on avait de la corruption due à la
volumétrie, la lenteur des disques et le manque de RAM.
Pour récupérer et envoyer les métriques, on passe en mode push et non
pull, avec un VMAgent sur chaque machine que l'on monitore qui pousse
sur le VictoriaMetrics. Ceci a comme avantage de sécuriser un endpoint
et d'avoir les démons locaux aux machines qui écoute sur 127.0.xx.1. Si
jamais l'endpoint de VictoriaMetrics n'est pas disponible un certain
temps, les VMAgent conserve les métriques jusqu'au moment où la
communication est rétablissement.
On a aussi un LibreNMS mais je ne suis pas sûr de le conserver, car les
infos que l'on regarde dedans pourrait être lu dans un Grafana, même
chose pour la Weathermap.
Pour les logs nous sommes en train d'expérimenter OpenObserve
(https://openobserve.ai) et récemment, ils ont aussi ajouté la
possibilité de récupérer des métriques au format Prometheus. L'avantage
pour moi de cette solution, c'est le stockage des données sur un S3 et
une alternative a la stack ELK.
Ce qui nous a pris le plus de temps, c'est la construction des tableaux
de bord dans Grafana une fois que l'on sort de ceux tout fait.
Pour les alertes, nous avons aussi pris du temps, mais nous nous sommes
aidés de ceci : https://samber.github.io/awesome-prometheus-alerts/.
Bien à toi,
Tharyrok
On 30/10/23 20:33, Jarod G. via FRsAG wrote:
Holà la liste,
on est en train de réfléchir à la question des supervisions pour une
petite infra qui peut être amenée à évoluer.
Je dit "des" car on remarque vite que un outil tout en un qui fait
tout correctement, bah ça existe tout simplement pas.
On réfléchissait à monter donc au moins deux sups.
Une sup "infra" qui fait uniquement du SNMP/ICMP pour tout ce qui est
réseau/serveurs/vm et une sup "applicative" qui elle va gérer le reste
(état nginx, systemd, etc...).
Du coup on est en recherche d'idées, sur la partie "infra" on est
plutôt familier avec Observium et LibreNMS même si on est pas fermé à
autre chose.
Quand à la partie "applicative" c'est un peu le flou (mix
grafana+influx ?), surtout sur la partie alertes.
Avez vous des retex sur des solutions que vous utilisez déjà ?
(ou des noms de solutions "entendues" mais jamais testées)
Notre seule et unique contrainte dans les solutions est que ça a
besoin d'être gratuit (bonus si c'est libre).
Jarod G.
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/