Bonjour à tous,

        il y a 3ans, j'ai eu à ma poser la question, mais au final, je suis 
resté sur un nagios pour le coeur du système, avec check_mk en webUI plugé 
dessus utilisant l'API livestatus.
Ça m'a permis pas mal de personnalisation de l'UI (CSS pour les aventureux), et 
des dashboard en-veux-tu-en-voilà pour tous cas de figure : support clientèle, 
%dispo pour les chefs, sondes OS/network pour les adminsys, graphs de 
paramètres applicatifs pour les dev, idems pour les DBA, etc. Chacun son 
dashboard.
De base, check_mk peut paraître austère, mais ça se customise au besoin et 
surtout la création/display/personnalisation des dashboard a été la 
killer-feature pour moi.
Tout ça paramétré avec Ansible. ça facilite vraiment la vie : toute la conf 
(nagios/check_mk/sondes) y est templatisée. Si on rajoute un host, il y a juste 
1-2 fichiers yaml à modifier, pareil si on rajoute une sonde, puis un 
`ansible-playbook nagios-playbook.yml` idempotent des familles et ça roule.
C'est comme ça que je supervisais ~10000 sondes sur ~300 serveurs. Nagios 
automatisé/templatisé avec ansible + check_mk pour la webUI personnalisable a 
été le bon combo sur mon cas.

        Etienne
27 juillet 2022 00:10 "Renaud Galante" <renaud.gala...@oute.org 
(mailto:renaud.gala...@oute.org?to=%22Renaud%20Galante%22%20<renaud.gala...@oute.org>)>
 a écrit:

Hello,

Ca me rassure, je ne suis pas le seul à m'interroger sur ce point.
Mais je n'ai toujours pas trouvé mieux pour le moment.

J'ai 1400 hosts et 9100 check sur nagios, avec a peu pres tout ce qui peut 
exister en protocol de supervision derrière....
Un thruk par dessus pour rendre l'utilisation de l'interface web plus agréable, 
et aussi profiter de l'API rest pour interroger l'état de plusieurs nagios.
Et toute ma conf est généré par fabric

J'ai tenté zabbix, qui me parait un excellent outil et coté UI clairement plus 
avancé, mais l'effort de migration me parait trop lourd par rapport à ce que ca 
peut m'apporter.
Icinga2 fait le taf aussi, leur système de conf est assez sympa, mais quand on 
génère la conf, au final, ca ne sert pas à grand chose..

Je vais probablement migrer vers naemon prochainement (ca reste un fork de 
nagios, donc toute ma conf marche sans rien faire), tout simplement parce que 
thruk a besoin de livestatus, dont je ne trouve plus de trace depuis 
l’apparition de checkmk.

Librenms reste hors course pour moi dès qu'on veut faire de la volumétrie. Je 
ne l'utilise que pour les équipements réseaux en tout cas

Donc pour ma part, je vais certainement rester sur du nagios like, et tant pis 
si l'interface est naze ....
Sauf si la perle rare ressort de ce thread .
        Reno.
Le 26/07/2022 à 17:46, Wallace a écrit : 

        Bonjour,

        On a tenté de remplacer Nagios / Munin / Observium par Prometheus / 
Grafana, dans les faits ce sont deux approches complètement différentes et 
certaines actions ne sont tout simplement pas possibles.

        Du coup on a automatisé notre Nagios, il se base sur les mêmes 
informations que Prometheus (qu'il ne serait pas viable de faire à la main). Je 
pense effectivement comme toi à tous les checks de ports, de connexion smtp, 
imap, https, vérification de certificats, de contenu dans des pages web, 
vérification de crontabs, ...

        Et au final ça marche très bien, ça consomme très peu de cpu / ram 
(Nagios est mine de rien sacrément optimisé pour encaisser beaucoup de charge).

        Et puis le problème des agents Zabbix on le retrouve également avec les 
métrics Prometheus que beaucoup d'équipements / logiciels n'implémentent pas 
encore. Quand c'est logiciel on les a codé, quand c'est équipement tu peux rien 
faire. Donc même la partie métrologie n'est pas complètement remplacé encore.

        Concernant l'automatisation, pas besoin d'API, c'est plus simple de 
fabriquer en IaC les fichiers de configuration et gérer les changements et 
faire un reload. Alors que vérifier par API que tout est comme tu le veux sur 
une infras conséquente ça fait tout de suite énormément de requêtes API qui 
vont durer des plombes pour vérifier la conformité.

        Voilà notre point de vue.
Le 26/07/2022 à 17:32, Mickael MONSIEUR a écrit :

        Bonjour, Suite à une mise à jour des systèmes, on a décidé de remplacer 
par la même occasion notre Nagios par quelque chose d'un peu plus 
"user-friendly". (et pourtant c'est un demi barbu qui parle..) Vous me 
demanderez ce qu'on a contre Nagios? En 15 ans, ça n'a pas vraiment évolué, et 
on aimerait bien quelque chose avec un minimum de GUI pour l'encodage, voir une 
API. Et mettre 2k/an dans la version XI pour un soft qui n'évolue presque 
pas... bof. Notre besoin est plutôt simple, on a déjà Observium qui fait 90% de 
nos besoins au sein de notre réseau, mais Observium ne permet pas "facilement" 
de monitorer "juste" des ports TCP, du SMTP/POP/IMAP, des réponses DNS, des 
réponses HTML dans une page HTTPS, l'expiration d'un certificat TLS. Au début 
on pensait à Zabbix, mais quand on voit que ça passe d'office par un agent, on 
en voit pas l'utilité. Observium fait déjà tout ça en SNMP, et certaines 
machines ne sont pas gérées par nous on doit juste les monitorer de 
l'extérieur, donc installation impossible. Les seules conditions qu'on a c'est 
: open source, sans agent, et pas dans un langage RAM killer comme Java. 
Mickael _______________________________________________ Liste de diffusion du 
%(real_name)s http://www.frsag.org/ (http://www.frsag.org/) 

        _______________________________________________ Liste de diffusion du 
%(real_name)s http://www.frsag.org/ (http://www.frsag.org/)
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

Répondre à