De notre côté on a développé un test cyclique qui envoie une notif très régulièrement vers un robot à l'extérieur qui nous alerte s'il ne reçoit rien. C'est compliqué d'aller plus loin...
Le lun. 28 juin 2021 à 11:18, Wallace <wall...@morkitu.org> a écrit : > Bonjour Julien, > > De notre côté on était Nagios et Munin on a presque fini de migrer tout > sur Prometheus / Grafana, il restera un bout de Nagios pour les > supervisions à gérer à la main hors infogérance et dépannage. Car on a > profité > > Pour la notification on a des règles assez strictes qui ne nous réveillent > que quand nécessaire et que pour des services sur lesquels nous avons la > main. > > Pour la notification question indépendance on a aussi fait ce choix et > nous avons deux mini pc avec des modem gsm pour envoyer les textos. Un > petit programme perl fait le load balancing des alertes sur les deux > boitiers et est capable de gérer le failover si un des deux boitiers n'est > pas joignable (ils sont sur des réseaux IP et opérateur gsm différents dans > des lieux différents). > > Les services extérieurs de notification vous faites comment quand c'est > votre backbone / réseau managé par un tiers qui tombe et que vos sondes ne > sont plus capables d'envoyer leurs notifications? Pour avoir déjà connu ce > genre de souci, c'est un boitier sms sur un des sites de production > joignable en local par un alertmanager, et l'autre boitier sms en dehors de > notre réseau avec une autre sonde Nagios / Prom qui monitore depuis > l'extérieur notre réseau. > > Quand y a une isolation réseau on a double notification ce qui confirme > que c'est pas juste un bgp qui bagote. > > Voilà pour nous > Le 25/06/2021 à 16:13, Julien Escario a écrit : > > Bonjour, > > Petite problématique du vendredi : actuellement, nous utilisons Icinga2 > avec l'excellent Anag [1] de Damian Degois pour nous réveiller au milieu > de la nuit si un morceau de notre infra part en vrille (j'aurais pu > utiliser 'torche' mais je crois que les masses ne sont pas prêtes encore). > > Souhaitant basculer le stockage sur InfluxDB (question de perf), nous > aimerions utiliser Telegraf pour faire la remontée des métriques mais > cela nous empêche d'utiliser la partie API de Icinga2. Ou alors il faut > faire un double monitoring : alertes SNMP & Ping avec Icinga2 et > métriques via Telegraf. Je ne trouve pas ça très satisfaisant. > > Je me suis pas mal documenté sur des exemples que j'ai trouvés ici et là > mais on dirait que la plupart des boites ont des gens qui regardent un > écran 24h/24 et que personne ne voit l'intérêt de pouvoir dormir de > temps à autre. > > Les rares qui font ça passent par des services tiers type Pagerduty mais > ça ne me tente pas non plus, pour une question d'indépendance sur un > sujet qui est quand même très critique. Pas très envie de multiplier les > SPoF. > > Du coup, ma question : et vous, comment faites vous ? > > A) Pagerduty > B) un insomniaque dans l'équipe > C) la réponse D > > Merci d'avance pour votre partage ! > > Julien > > [1] > https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag > > > _______________________________________________ > Liste de diffusion du FRsAGhttp://www.frsag.org/ > > _______________________________________________ > Liste de diffusion du FRsAG > http://www.frsag.org/ > -- Matthieu Noirbusson
_______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/