2009/12/16 Etienne Chové <ch...@crans.org> > Bonjour, > > Frédéric Rodrigo ne postant pas l'annonce, je lui pique la place. > > Il a réalisé une succession de requêtes sql qui permettent de faire des > comparaisons basées sur soundex dans les champs name. J'e n'ai pas > regardé les requêtes, mais j'ai tout mis dans un backend pour voir ce > que ça donne : > > http://osmose.openstreetmap.fr/map/cgi-bin/index.py?ch=109-1 > > Ca a l'air intéressant et plutôt pas mal dans beaucoup de cas. Je vous > laisse ragarder ce que ça donne. La première version travaillait dans > *_roads, mais à sa demande les requêtes se font dans *_line (donc tout > les ways, et pas simplement les highway). > > La nouvelle (avec les _line) version est en cours d'analyse, mais comme > tous les matins le serveur mouline les 60 backend. Vous pouvez pour le > moment regarder les résultat sur les highway. > > Hum, je ne suis pas sure qu'une requête SOUNDEX soit une bonne idée. SOUNDEX est base sur des phonèmes anglo saxons et n'est pas très adaptée a la langue française. De plus, la qualité dépend énormément des phonèmes utilisés et de savoir quelle version est utilisée. Soundex était une des raisons pour lesquels tu avais tellement de faux positif pour les contrôles aux aéroports américains: ils utilisaient une version de cette algorithme sur des langues qui n'étaient pas prévu pour afin de détecter potentiellement des homonymes. Si tu veux utiliser un algorithme plus indépendant, il vaut mieux utiliser double metaphone. SOUNDEX est douteux mais présent dans la quasi totalité des bases de données, tandis que double métaphone ne l'est pas. Dans une des mes précédentes boites, on avait utilise SOUNDEX pour améliorer la recherche sur des titres de film. On a vite retire cette fonctionnalité au vue des résultats, sans parler que l'on parle de films en langues anglaises.
http://fr.wikipedia.org/wiki/Double_Metaphone Emilie Laffray
_______________________________________________ Talk-fr mailing list Talk-fr@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-fr