[FRsAG] Re: Qui pour remplacer Nagios en 2022 ?

Wallace Thu, 28 Jul 2022 07:33:22 -0700

Les arguments de Raphel peuvent être repris en inconvénients.

Le principal problème je trouve c'est la quantité de données. Car quandon passe sur du prom, on a tendance à ne pas se contenter de toutes les5 min ou 1 min à l'ancienne, on descend souvent à toutes les 15 secondesvoir moins dans certains cas.

Et quand bien même on resterait sur 1min ou 5min, ce n'est pas juste unétat ok, warning, error, non c'est toutes les métriques internes d'unlogiciel en brut. Et ça entre un nagios et un prom pour une infra deplusieurs centaines de serveurs on passe de tout tient sur un seulserveur nagios qui mange dans les 200Go de datas sur 1 an de rétention pour 4 cpu, 8Go ram à un prom qui mange 4To de datas 32 cpu, 64Go rampour garder 3 à 4 semaines de datas...

Et après il faut avoir des ressources pour être capable d'interrogertoutes ces données rapidement pour faire les alertes, les graphs et làles 32cpu en vm ne suffisent plus ... ça rame sous grafana.

Bref on considère plus prom comme du temps réel à garder 24h / 48h maxmais on perd l'investigation à posteriori d'évènements léger ou alorsd'un gros pic qu'on a pas pu analyser dans le gap de temps imparti.

On a regardé aussi quelles bases de time series utilisées pour pouvoirnotamment réduire les données au bout de certaines périodes : 1 mois, 6mois, ... pour réduire la fréquence, mais on a rien trouvé qui marchaitvraiment bien l'année dernière.


Le 28/07/2022 à 13:14, Nicolas GIRARDI a écrit :

Je suis mitigé.
Ok pour la metrologie l’observabilité mais pour l’alerting lereporting ça reste un peu pénible.
Avis purement personnel.

Nicolas Girardi.
Le 28 juil. 2022 à 12:35, Raphael Mazelier <r...@futomaki.net> a écrit :



Bonjour,
Je suis tout de même étonné que peu de monde à part Wallace ait citéécosystème Prometheus.
Dans mes x précédentes aventures professionnelles c'était ce qu'il yavait ou que j'ai mis en place, et c'est ce qui parait le standard defacto de nos jours pour "observer" une infrastructure dynamique(cloud ou autre).
En effet il s'agit d'une approche assez différente (finalement assezproche de zabbix dans son fonctionnement nominal) qui est derécupérer un maximum de métriques et d'évaluer des règles d'alertingdessus.
En effet ce n'est pas agentless, mais si on y réfléchit peu desolution le sont. Il y a nécessairement quelque chose sur lehost/équipement qui répond des métriques (possiblement des gauges)dans toutes les solutions (snmp, check_mk, agent-zabbix).
Les bénéfices de l'approche prometheus (ou alternatives) sontnombreux, mais les plus gros que je vois :
- nombres de métriques systèmes et applicatives possiblement énormes

- alertes crées de manières programmatiques

- auto-discovery
- découplage forcés de l'alerting/routing des alertes (on peut voirça comme un inconvénient)
En revanche cela ne remplace pas tout, on est bien d'accord. Lesalertes prom sont du whitebox, et alertes passives.
Il faut en // maintenir des alertes blackbox actives (soit via unoutil externes type pingdom), ou même des alertes actives via un toolinternes (on en avait écrit certain) qui re-exposaient leurs résultaten métriques prom.
Je ne peux m'empecher de relinker les excellents papier de google SREsur le monitoring :
- https://sre.google/workbook/monitoring/
- https://sre.google/sre-book/practical-alerting/-https://sre.google/sre-book/monitoring-distributed-systems/
On 26/07/2022 17:32, Mickael MONSIEUR wrote:
Bonjour,

Suite à une mise à jour des systèmes, on a décidé de remplacer par la
même occasion notre Nagios par quelque chose d'un peu plus
"user-friendly". (et pourtant c'est un demi barbu qui parle..)

Vous me demanderez ce qu'on a contre Nagios? En 15 ans, ça n'a pas
vraiment évolué, et on aimerait bien quelque chose avec un minimum de
GUI pour l'encodage, voir une API. Et mettre 2k/an dans la version XI
pour un soft qui n'évolue presque pas... bof.

Notre besoin est plutôt simple, on a déjà Observium qui fait 90% de
nos besoins au sein de notre réseau, mais Observium ne permet pas
"facilement" de monitorer "juste" des ports TCP, du SMTP/POP/IMAP, des
réponses DNS, des réponses HTML dans une page HTTPS, l'expiration d'un
certificat TLS.

Au début on pensait à Zabbix, mais quand on voit que ça passe d'office
par un agent, on en voit pas l'utilité. Observium fait déjà tout ça en
SNMP, et certaines machines ne sont pas gérées par nous on doit juste
les monitorer de l'extérieur, donc installation impossible.

Les seules conditions qu'on a c'est : open source, sans agent, et pas
dans un langage RAM killer comme Java.

Mickael
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

[FRsAG] Re: Qui pour remplacer Nagios en 2022 ?

Répondre à