2009/12/16 Etienne Chové <ch...@crans.org>

> Bonjour,
>
> Frédéric Rodrigo ne postant pas l'annonce, je lui pique la place.
>
> Il a réalisé une succession de requêtes sql qui permettent de faire des
> comparaisons basées sur soundex dans les champs name. J'e n'ai pas
> regardé les requêtes, mais j'ai tout mis dans un backend pour voir ce
> que ça donne :
>
> http://osmose.openstreetmap.fr/map/cgi-bin/index.py?ch=109-1
>
> Ca a l'air intéressant et plutôt pas mal dans beaucoup de cas. Je vous
> laisse ragarder ce que ça donne. La première version travaillait dans
> *_roads, mais à sa demande les requêtes se font dans *_line (donc tout
> les ways, et pas simplement les highway).
>
> La nouvelle (avec les _line) version est en cours d'analyse, mais comme
> tous les matins le serveur mouline les 60 backend. Vous pouvez pour le
> moment regarder les résultat sur les highway.
>
>
Hum, je ne suis pas sure qu'une requête SOUNDEX soit une bonne idée. SOUNDEX
est base sur des phonèmes anglo saxons et n'est pas très adaptée a la langue
française. De plus, la qualité dépend énormément des phonèmes utilisés et de
savoir quelle version est utilisée. Soundex était une des raisons pour
lesquels tu avais tellement de faux positif pour les contrôles aux aéroports
américains: ils utilisaient une version de cette algorithme sur des langues
qui n'étaient pas prévu pour afin de détecter potentiellement des homonymes.
Si tu veux utiliser un algorithme plus indépendant, il vaut mieux utiliser
double metaphone. SOUNDEX est douteux mais présent dans la quasi totalité
des bases de données, tandis que double métaphone ne l'est pas.
Dans une des mes précédentes boites, on avait utilise SOUNDEX pour améliorer
la recherche sur des titres de film. On a vite retire cette fonctionnalité
au vue des résultats, sans parler que l'on parle de films en langues
anglaises.

http://fr.wikipedia.org/wiki/Double_Metaphone

Emilie Laffray
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-fr

Répondre à