Bonjour,

De mon côté, j'utilise un rapsberry en observation sur l'infra. A une époque, j'utilisais l'alerting de google agenda (car gratuit) en créant des évènements immédiats avec rappel SMS / notification. Puis c'est devenu impossible et je suis passé par mon FAI pour envoyer des SMS. Finalement, je me contente désormais d'envoyer des mails. Tout est en python (mail) ou en php (sms) et j'ai toujours les codes si ça en intéresse certains.

Cordialement,

Le 28/06/2021 à 12:10, Noirbusson Matthieu a écrit :
De notre côté on a développé un test cyclique qui envoie une notif très régulièrement vers un robot à l'extérieur qui nous alerte s'il ne reçoit rien. C'est compliqué d'aller plus loin...

Le lun. 28 juin 2021 à 11:18, Wallace <wall...@morkitu.org <mailto:wall...@morkitu.org>> a écrit :

    Bonjour Julien,

    De notre côté on était Nagios et Munin on a presque fini de migrer
    tout sur Prometheus / Grafana, il restera un bout de Nagios pour
    les supervisions à gérer à la main hors infogérance et dépannage.
    Car on a profité

    Pour la notification on a des règles assez strictes qui ne nous
    réveillent que quand nécessaire et que pour des services sur
    lesquels nous avons la main.

    Pour la notification question indépendance on a aussi fait ce
    choix et nous avons deux mini pc avec des modem gsm pour envoyer
    les textos. Un petit programme perl fait le load balancing des
    alertes sur les deux boitiers et est capable de gérer le failover
    si un des deux boitiers n'est pas joignable (ils sont sur des
    réseaux IP et opérateur gsm différents dans des lieux différents).

    Les services extérieurs de notification vous faites comment quand
    c'est votre backbone / réseau managé par un tiers qui tombe et que
    vos sondes ne sont plus capables d'envoyer leurs notifications?
    Pour avoir déjà connu ce genre de souci, c'est un boitier sms sur
    un des sites de production joignable en local par un alertmanager,
    et l'autre boitier sms en dehors de notre réseau avec une autre
    sonde Nagios / Prom qui monitore depuis l'extérieur notre réseau.

    Quand y a une isolation réseau on a double notification ce qui
    confirme que c'est pas juste un bgp qui bagote.

    Voilà pour nous

    Le 25/06/2021 à 16:13, Julien Escario a écrit :
    Bonjour,

    Petite problématique du vendredi : actuellement, nous utilisons Icinga2
    avec l'excellent Anag [1] de Damian Degois pour nous réveiller au milieu
    de la nuit si un morceau de notre infra part en vrille (j'aurais pu
    utiliser 'torche' mais je crois que les masses ne sont pas prêtes encore).

    Souhaitant basculer le stockage sur InfluxDB (question de perf), nous
    aimerions utiliser Telegraf pour faire la remontée des métriques mais
    cela nous empêche d'utiliser la partie API de Icinga2. Ou alors il faut
    faire un double monitoring : alertes SNMP & Ping avec Icinga2 et
    métriques via Telegraf. Je ne trouve pas ça très satisfaisant.

    Je me suis pas mal documenté sur des exemples que j'ai trouvés ici et là
    mais on dirait que la plupart des boites ont des gens qui regardent un
    écran 24h/24 et que personne ne voit l'intérêt de pouvoir dormir de
    temps à autre.

    Les rares qui font ça passent par des services tiers type Pagerduty mais
    ça ne me tente pas non plus, pour une question d'indépendance sur un
    sujet qui est quand même très critique. Pas très envie de multiplier les
    SPoF.

    Du coup, ma question : et vous, comment faites vous ?

    A) Pagerduty
    B) un insomniaque dans l'équipe
    C) la réponse D

    Merci d'avance pour votre partage !

    Julien

    [1]
    https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag  
<https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag>


    _______________________________________________
    Liste de diffusion du FRsAG
    http://www.frsag.org/  <http://www.frsag.org/>
    _______________________________________________
    Liste de diffusion du FRsAG
    http://www.frsag.org/ <http://www.frsag.org/>



--
Matthieu Noirbusson

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

--
Rémy Dernat
Chef de projet SI
IR CNRS - ISI / ISEM

Attachment: OpenPGP_0xCF65C2676B3A1402.asc
Description: OpenPGP public key

Attachment: OpenPGP_signature
Description: OpenPGP digital signature

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à