Soyez le bienvenu! Je n'ai pas tout lu, juste la fin et le début :-)

Jo




2014-07-25 18:54 GMT+02:00 Jean-Philippe Camguilhem <jp.camguil...@gmail.com
>:

> Bonsoir,
>
>
> Le 22/07/2014 02:44, Philippe Verdy a écrit :
>
>  C'est tout de même dommage qu'une société qui se dit experte en
> solutions de "déploiement agile" ne sache pas configurer correctement une
> solution mail nécessaire à n'importe quel site hébergé pour ses clients et
> au moins isoler le système défaillant après plus d'une semaine.
>
>
>
> Alors je vais répondre de deux façons :
>
> + La version courte:
>
>
> Un bug sur le cache DNS d'un des fournisseurs d'OSM, engendrait un timeout
> lors de la vérification de notre signature DKIM, qui empêchait la réception
> de l'ACK du message à notre smtp, et donc ce dernier à remis le message en
> queue et  conformément aux RFC a tenté une politique de best-effort de
> livraison de ce message pendant 5 jours.
>
>
> + La version longue pour les plus curieux d'entre vous,  je sais qu'il y e
> n a qui vont lire jusqu'au bout.
>
>
> ===============================
> traçage du message trublion
> ===============================
>
> https://lists.openstreetmap.org/pipermail/talk-fr/2014-July/069617.html
>
> message id 2A4FE8129D
>
> In log veritas
> ==================
>
> le mail traverse deux smtp sur notre infra: en premier lieux notre MX
>
> root__at__proxy-smtp:/home/sysadmin/jpcw# grep --color 2A4FE8129D
> mail.log.1
> Jul 16 08:19:59 proxy-smtp postfix/smtpd[5373]: 2A4FE8129D: client=
> mail.makina-corpus.com[212.83.188.243]
> Jul 16 08:19:59 proxy-smtp postfix/cleanup[5558]: 2A4FE8129D: message-id=<
> 53C6198E.4080001__at__makina-corpus.com>
> Jul 16 08:19:59 proxy-smtp opendkim[5363]: 2A4FE8129D: DKIM-Signature
> field added (s=mail, d=makina-corpus.com)
> Jul 16 08:19:59 proxy-smtp postfix/qmgr[21119]: 2A4FE8129D: from=<
> jeanmichel.francois__at__makina-corpus.com>, size=24700, nrcpt=1 (queue
> active)
> Jul 16 08:20:00 proxy-smtp amavis[4568]: (04568-12) Passed CLEAN
> {RelayedOutbound}, MYNETS LOCAL [212.83.188.243]:35209 [128.79.238.165] <
> jeanmichel.francois__at__makina-corpus.com> -> <
> talk-fr__at__openstreetmap.org>, Queue-ID: 2A4FE8129D, Message-ID: <
> 53C6198E.4080001__at__makina-corpus.com>, mail_id: vidMKJEXV1Wn, Hits:
> -1.999, size: 25123, queued_as: 104228131D, dkim_sd=mail:makina-corpus.com,
> 880 ms
> Jul 16 08:20:00 proxy-smtp postfix/smtp[5559]: 2A4FE8129D: to=<
> talk-fr__at__openstreetmap.org>, relay=127.0.0.1[127.0.0.1]:10024,
> delay=0.98, delays=0.09/0.01/0.01/0.88, dsn=2.0.0, status=sent (250 2.0.0
> from MTA(smtp:[127.0.0.1]:10025): 250 2.0.0 Ok: queued as 104228131D)
> Jul 16 08:20:00 proxy-smtp postfix/qmgr[21119]: 2A4FE8129D: removed
>
> Le mail envoyé par Jean-Michel depuis son client de messagerie est accepté
> par notre MX, puis entête DKIM, puis le mail est scanné et finalement
> transmis
> à notre relay (qui est donc notre smtp sortant) qui le mets en queue avec
> le queuid 104228131D
>
> historique de ce mail dans nos logs
> -------------------------------------------------
>
> root__at__proxy-smtp:/home/sysadmin/jpcw# grep --color 104228131D
> mail.log.1 | grep -v "(queue active)" | wc -l
> 79
> root__at__proxy-smtp:/home/sysadmin/jpcw# grep --color 104228131D mail.log
> | grep -v "(queue active)" | wc -l
> 23
>
> Aggrégeons dans un fichier texte pour y voir plus clair
> +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
> grep --color 104228131D mail.log.1 | grep -v "(queue active)" >>
> report_104228131D.txt
> grep --color 104228131D mail.log | grep -v "(queue active)" >>
> report_104228131D.txt
>
> reprise du mail transmis par le MX, correspondant à la vision log du smtp
> sortant de l'échange au dessus
>
> Jul 16 08:20:00 proxy-smtp postfix/smtpd[5562]: 104228131D:
> client=localhost.localdomain[127.0.0.1]
> Jul 16 08:20:00 proxy-smtp postfix/cleanup[5558]: 104228131D: message-id=<
> 53C6198E.4080001__at__makina-corpus.com>
> Jul 16 08:20:00 proxy-smtp opendkim[5363]: 104228131D: DKIM-Signature
> field added (s=mail, d=makina-corpus.com)
> Jul 16 08:20:00 proxy-smtp amavis[4568]: (04568-12) Passed CLEAN
> {RelayedOutbound}, MYNETS LOCAL [212.83.188.243]:35209 [128.79.238.165] <
> jeanmichel.francois__at__makina-corpus.com> -> <
> talk-fr__at__openstreetmap.org>, Queue-ID: 2A4FE8129D, Message-ID: <
> 53C6198E.4080001__at__makina-corpus.com>, mail_id: vidMKJEXV1Wn, Hits:
> -1.999, size: 25123, queued_as: 104228131D, dkim_sd=mail:makina-corpus.com,
> 880 ms
> Jul 16 08:20:00 proxy-smtp postfix/smtp[5559]: 2A4FE8129D: to=<
> talk-fr__at__openstreetmap.org>, relay=127.0.0.1[127.0.0.1]:10024,
> delay=0.98, delays=0.09/0.01/0.01/0.88, dsn=2.0.0, status=sent (250 2.0.0
> from MTA(smtp:[127.0.0.1]:10025): 250 2.0.0 Ok: queued as 104228131D)
>
> A partir d'ici smtp sortant va essayer maintenant de contacter le
> destinataire à savoir a.mx.openstreetmap.org, pour cela il met le message
> en queue sous le numéro 104228131D
>
> Les différents décalages:
>
> Jul 16 08:30:00 proxy-smtp postfix/smtp[5563]: 104228131D: to=<
> talk-fr__at__openstreetmap.org>, 
> relay=a.mx.openstreetmap.org[89.16.179.150]:25,
> delay=600, delays=0.08/0.01/0.12/600, dsn=4.4.2, status=deferred
> (conversation with a.mx.openstreetmap.org[89.16.179.150] timed out while
> sending end of data -- message may be sent more than once)
>
> décalage de ré-émission de 20 minutes
>
> Jul 16 08:50:04 proxy-smtp postfix/smtp[7272]: 104228131D: to=<
> talk-fr__at__openstreetmap.org>, 
> relay=a.mx.openstreetmap.org[89.16.179.150]:25,
> delay=1804, delays=1202/0.02/0.21/602, dsn=4.4.2, status=deferred
> (conversation with a.mx.openstreetmap.org[89.16.179.150] timed out while
> sending end of data -- message may be sent more than once)
>
> puis 45 minutes
>
> Jul 16 09:35:03 proxy-smtp postfix/smtp[10686]: 104228131D: to=<
> talk-fr__at__openstreetmap.org>, 
> relay=a.mx.openstreetmap.org[89.16.179.150]:25,
> delay=4503, delays=3902/0.02/0.37/600, dsn=4.4.2, status=deferred
> (conversation with a.mx.openstreetmap.org[89.16.179.150] timed out while
> sending end of data -- message may be sent more than once)
>
> Puis 1h20 minutes
>
> Jul 16 10:55:02 proxy-smtp postfix/smtp[16367]: 104228131D: to=<
> talk-fr__at__openstreetmap.org>, 
> relay=a.mx.openstreetmap.org[89.16.179.150]:25,
> delay=9303, delays=8702/0.02/0.08/600, dsn=4.4.2, status=deferred
> (conversation with a.mx.openstreetmap.org[89.16.179.150] timed out while
> sending end of data -- message may be sent more than once)
>
> puis à ce même rythme de 1h20 durant les 5 jours recommandés dans les RFC
> ....
> Jul 21 07:35:05 proxy-smtp postfix/smtp[30835]: 104228131D: to=<
> talk-fr__at__openstreetmap.org>, 
> relay=a.mx.openstreetmap.org[212.110.172.32]:25,
> delay=429306, delays=428705/0.03/0.69/600, dsn=4.4.2, status=deferred
> (conversation with a.mx.openstreetmap.org[212.110.172.32] timed out while
> sending end of data -- message may be sent more than once)
> Jul 21 08:55:04 proxy-smtp postfix/smtp[4562]: 104228131D: to=<
> talk-fr__at__openstreetmap.org>, 
> relay=a.mx.openstreetmap.org[212.110.172.32]:25,
> delay=434105, delays=433504/0.01/0.4/600, dsn=4.4.2, status=deferred
> (conversation with a.mx.openstreetmap.org[212.110.172.32] timed out while
> sending end of data -- message may be sent more than once)
> Jul 21 08:55:04 proxy-smtp postfix/qmgr[21119]: 104228131D: from=<
> jeanmichel.francois__at__makina-corpus.com>, status=expired, returned to
> sender
>
> Au bout des 5 jours d'échecs, il retourne le mail à l'expéditeur.
>
> Jul 21 08:55:04 proxy-smtp postfix/bounce[5292]: 104228131D: sender
> non-delivery notification: CA77581131
> Jul 21 08:55:04 proxy-smtp postfix/qmgr[21119]: 104228131D: removed
>
> En clair notre smtp n'a fait que son boulot de ré-émission du mail car
> a.mx.openstreetmap.org "timeoutait" avant de renvoyer l'acknowledge du
> transfert complet.
> Postfix considère ça comme un échec et remet le mail en queue en espaçant
> progressivement les tentatives de ré-émission.
>
>
>
> In TCPDump veritas
> ===================
>
> Maintenant que l'on sait qu'il y a un souci de l'autre côté il faut
> essayer de comprendre ce qui se passe, c'est pourquoi ce lundi midi un de
> mes collègues est venu demander un admin-sys sir le chan osm
> pour convenir d'un créneau pour tracer la connexion de part et d'autre.
>
> Je vous paste ici la conversation entre kiorky (Makina), T(omH, Firefishy)
> OSM sur irc
>
> Le début de la conversation n'est pas le plus intéressant, ça cause on se
> met d'accord pour s'envoyer un mail et on trace de part et d'autre la
> connexion
> etc (plus que constat que notre ns2 ne répondait plus suite erreur salt du
> matin, mais indépendante du bug recensé, bref, que des choses hors
> diagnostic)
>
>
>  lun. juil. 21 13:43:25 2014<kiorky> but at least all our ns will normally
> reply to the txt record.
>  lun. juil. 21 13:48:24 2014<TomH> ok, so first problem is that UDP
> response is getting truncated so it falls back to TCP (doesn't happen on my
> bytemark VM)
>  lun. juil. 21 13:48:53 2014<TomH> second problem is that tcp to that
> first server fails
>  lun. juil. 21 13:48:58 2014<TomH> from my VM as well
>  lun. juil. 21 13:50:21 2014<TomH> ah Fedora is enabling EDNS and ubuntu
> isn't
>  lun. juil. 21 13:50:28 2014<TomH> that's why UDP works for my machine
>  lun. juil. 21 13:50:41 2014>>>> Ab_fab (
> ~ab_...@def92-12-88-177-250-146.fbx.proxad.net) has quit [Ping timeout:
> 480 seconds]
>
>  Un ticket va être ouvert sur le fournisseur (bytemark) car le cache ne
> sait pas passer d'udp en tcp sur les requêtes dns verbeuses (ce qui est le
> cas de la véirf DKIM)
>
>  lun. juil. 21 13:51:50 2014<Firefishy> TomH: I'll fire off an email to
> bytemark about their server rejecting TCP queries.
>  lun. juil. 21 13:52:04 2014<TomH> oh was just about to do it
>  lun. juil. 21 13:52:28 2014<Firefishy> TomH: ok, I'll leave it to you.
>
>
>  lun. juil. 21 13:57:50 2014<TomH> it's weird - it lets you connect, but
> the query itself is never even ACKed
>  lun. juil. 21 13:58:03 2014<TomH> the client just sits there
> retransmitting the data
>
> Les admins-sys d'OSM constatent la même chose que de notre côté, le smtp
> d'osm ne renvoie jamais l'Aknowledge sur la bonne réception du mail, car il
> a timeouté sur la vérif DKIM à cause d'un bug du cache du prestataire.
> la requête étant verbeuse (vérif DKIM), lors du passage d'UDP en TCP ->
> time out == boom.
>
> Du coup notre smtp croit que le message n'a pas été reçu en entier, (car
> il n'a pas reçu l'ACK) de celui d'OSM, du coup il remet en queue, et ce
> pendant 5 jours comme expliqué au dessus.
> c'est le fonctionnement normal du mail.
>
>
> Petit topo ultra-simplifié de la conversation des 2 smtp
> ==========================================================
>
> smtp-makian elho
> smtp-osm elho
> smtp-makina j'ai un mail pour toi
> smtp-osm ok l'adresse est valide commence à envoyer la data, pendant ce
> temps je vérifie ta signature DKIM
> smtp-makina -> transfer data
> smtp-osm (timeout avec le cache DNS du fournisseur bytemark, ne peut pas
> vérifier signature)
> smtp-makina en attente ACK du transfert de la data et de la prise en
> charge du message par le smtp d'osm
> .... time out
> smtp-makina remet en queue pour plus tard pendant 5 jours
>
>
> Ce qui est surprenant et là où il reste potentiellement un souci, c'est
> que le smtp d'osm transmettait à chaque fois le messagge à la socket du
> mailman.
> C'est pour cela que vous les avez reçu pour certains environ 90 fois).
>
> Dans un monde idéal ce transfert ne devrait avoir lieu qu'après l'ACK de
> la prise en charge au smtp expéditeur,
> là il a lieu avant, enfin ça je ne sais plus besoin de vous l'expliquer,
> vous l'avez vécu /o\ :D
>
> Comme vous le voyez l'introduction d'une sécurité supplémentaire ici le
> DKIM engendre des effets de bords là où on ne les attends pas forcément.
> La vie d'admin-sys quoi.
>
>
> Conclusion
> ==============
>
> Nous sommes humains, nous aurions pu nous tromper,et nous l'aurions
> reconnu volontiers !
>
> Vous comprendrez qu'ici pour nous il n'y a pas erreur de notre part.
>
> Alors oui nous n'avons regardé que le lundi fin de matinée, un problème
> remonté par Jean-Michel le jeudi soir ou vendredi, pour nous rien ne
> laissait présager un dysfonctionment, car en plus comme
> quelqu'un l'a constaté dans le fil, ce problème n'était présent que sur
> cette liste. Pour nous il n'y avait aucune urgence, aucun dysfonctionnment
> constaté sur notre mesagerie, et mois d'été oblige
> on est pas en sur-effectif à l'admin-sys, sans compter la migration de
> notre infra sur Salt.
>
> Donc oui on aurait pu plonger dans les logs plus tôt pour ce mail, tout
> autant que des gens d'ici auraient pu demander aux admin-sys (très
> compétents au demeurant) d'OSM pour le tracer aussi de leur côté.
>
> Nous sommes vraiment désolés de la gène occasionnée, mais nous n'y sommes
> strictement pour rien.
>
> Notre SMTP a fait son boulot, normalement et conformément aux standards,
> certains vont peut-être émettre des souhaits sur les délais de ré-émission,
> mais ça ne change rien au bug constaté.
> Si le temps du delayed s'était allongé de façon plus conséquente vous
> n'auriez pu recevoir que 25 mails au lieu de 90 mais vous en auriez reçu 25
> quand même.
>
> Nous comprenons l'énervement de certains, nous comprenons aussi que les
> analyses et autres diagnostics plus ou moins "douteux"(très difficiles sans
> les logs ou sans tcpdumper la connexion),
> ou autres solutions radicales proposées étaient proportionnelles à
> l'agacement engendré, et que de surcroît tout pouvait porter à croire que
> ça venait de chez nous.
>
> Pourquoi diable cette ML qui sert des messages tous les jours se mettrait
> à bugguer pour un seul expéditeur, qui plus est récemment inscrit sur la
> liste.
> Donc non nous n'en voulons pas trop aux gens qui nous ont jeté des
> cailloux,
> enfin rien qui ne puisse se régler autour d'une bière quoi :D (on a quand
> même des principes !)
>
>
> Last but not least
> ==============
>
> Alors pourquoi je ne réponds ici qu'un vendredi ?
>
> Non ce n'est pas permis parce que c'est vendredi,
>
> c'est juste que parce qu'aujourd'hui c'est sysadmin-day et que je
> m'octroie le droit de partager avec vous ce qui est vécu par mes(vos)
> collègues ici ou ailleurs.
>
> Donc n'oubliez pas qu'ils sont humains, et qu'il est facile de les accuser
> à tords chaque fois qu'il y a un problème, les admin-sys sont des hommes de
> l'ombre.
> On ne parle d'eux, on ne pense à eux que quand ça ne fonctionne pas !
>
> Happy sysadmin day à tous ceux qui le méritent, et je sais qu'il y en a
> sur cette liste.
>
> Cordialement,
>
> Jean-Philippe
>
> admin-sys junior intermittent chez Makina-Corpus
>
>
> P.S nous retenterons l'envoi d'un mail de Jean-Michel après son retour de
> congés, on surveillera en direct,
> et nous brûlerons la queue si le bug n'est toujours pas résolu chez
> bytemark.
>
> Je me suis isncrit avec un de mes mails perso, car je ne désespère pas de
> contribuer à OSM, ni pourquoi pas de poser un jour une question.
>
> Je découvre et suis avec un certain intérêt les questions dont je ne
> supposais même pas l'existence depuis plusieurs jours.
>
> Ce mail sert donc aussi de présentation.
>
>
>
>
>
> _______________________________________________
> Talk-fr mailing list
> Talk-fr@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-fr
>
>
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr

Répondre à