De notre côté on a développé un test cyclique qui envoie une notif très
régulièrement vers un robot à l'extérieur qui nous alerte s'il ne reçoit
rien. C'est compliqué d'aller plus loin...

Le lun. 28 juin 2021 à 11:18, Wallace <wall...@morkitu.org> a écrit :

> Bonjour Julien,
>
> De notre côté on était Nagios et Munin on a presque fini de migrer tout
> sur Prometheus / Grafana, il restera un bout de Nagios pour les
> supervisions à gérer à la main hors infogérance et dépannage. Car on a
> profité
>
> Pour la notification on a des règles assez strictes qui ne nous réveillent
> que quand nécessaire et que pour des services sur lesquels nous avons la
> main.
>
> Pour la notification question indépendance on a aussi fait ce choix et
> nous avons deux mini pc avec des modem gsm pour envoyer les textos. Un
> petit programme perl fait le load balancing des alertes sur les deux
> boitiers et est capable de gérer le failover si un des deux boitiers n'est
> pas joignable (ils sont sur des réseaux IP et opérateur gsm différents dans
> des lieux différents).
>
> Les services extérieurs de notification vous faites comment quand c'est
> votre backbone / réseau managé par un tiers qui tombe et que vos sondes ne
> sont plus capables d'envoyer leurs notifications? Pour avoir déjà connu ce
> genre de souci, c'est un boitier sms sur un des sites de production
> joignable en local par un alertmanager, et l'autre boitier sms en dehors de
> notre réseau avec une autre sonde Nagios / Prom qui monitore depuis
> l'extérieur notre réseau.
>
> Quand y a une isolation réseau on a double notification ce qui confirme
> que c'est pas juste un bgp qui bagote.
>
> Voilà pour nous
> Le 25/06/2021 à 16:13, Julien Escario a écrit :
>
> Bonjour,
>
> Petite problématique du vendredi : actuellement, nous utilisons Icinga2
> avec l'excellent Anag [1] de Damian Degois pour nous réveiller au milieu
> de la nuit si un morceau de notre infra part en vrille (j'aurais pu
> utiliser 'torche' mais je crois que les masses ne sont pas prêtes encore).
>
> Souhaitant basculer le stockage sur InfluxDB (question de perf), nous
> aimerions utiliser Telegraf pour faire la remontée des métriques mais
> cela nous empêche d'utiliser la partie API de Icinga2. Ou alors il faut
> faire un double monitoring : alertes SNMP & Ping avec Icinga2 et
> métriques via Telegraf. Je ne trouve pas ça très satisfaisant.
>
> Je me suis pas mal documenté sur des exemples que j'ai trouvés ici et là
> mais on dirait que la plupart des boites ont des gens qui regardent un
> écran 24h/24 et que personne ne voit l'intérêt de pouvoir dormir de
> temps à autre.
>
> Les rares qui font ça passent par des services tiers type Pagerduty mais
> ça ne me tente pas non plus, pour une question d'indépendance sur un
> sujet qui est quand même très critique. Pas très envie de multiplier les
> SPoF.
>
> Du coup, ma question : et vous, comment faites vous ?
>
> A) Pagerduty
> B) un insomniaque dans l'équipe
> C) la réponse D
>
> Merci d'avance pour votre partage !
>
> Julien
>
> [1] 
> https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag
>
>
> _______________________________________________
> Liste de diffusion du FRsAGhttp://www.frsag.org/
>
> _______________________________________________
> Liste de diffusion du FRsAG
> http://www.frsag.org/
>


-- 
Matthieu Noirbusson
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à