J'avais préparé un roman détaillé, au sujet des diverses typos des divers cas, je vous l'épargne... ;-) mais même en abrégé, c'est déjà assez long... Surtout qu'il faudrait parler des typos fondamentalement différentes selon si on parle "en texte" ou en sigle, et des différences entre langage, normes, et administratif...
Après toutes ces réflexions (et sous toutes réserves !) je pense qu'un robot sur les noms des rues devrait se limiter à virer les blancs avant et après le terme, les blancs après un apostrophe, les blancs avant et après un trait d'union existant, et des doublons d'espaces (boucle) et à mettre la première lettre du terme en majuscule. Un robot sur les noms de villages, villes et hameaux (unités administratives) devrait se limiter à ce que dessus, et ensuite remplacer les espaces à l'intérieur du terme par des traits d'union, sauf derrière le premier mot, si celui-ci est un article. --- Tout le "reste" me semble dépendre du cas le cas, donc réservé à la jugeote humaine. Les noms de rue contiennent tant de noms de personnes, chacun avec son orthographe, que cela échappe aux algorithmes. On ne va pas remplacer tous les noms avec "Gaule" en "Gaulle", en mémoire du Général, car la "Gaule", elle aussi, existe ;-) On ne va pas "normaliser" tous les noms avec "lez" ou "lèz" ( = près de, comme dans Nissan-lez-Ensérunes), parce que dans Castelnau-le-Lez, ce Lez est un ruisseau. Tout comme dans certaines régions le "y" signifie "et", donc devrait s'écrire en minuscule, là où existe dans le Cher un ruis au nom d'Y qui, quoique petit, mérite sa majuscule, et le nom local du lieu-dit Pondy (un "parisianisme" cadastral...) est Pont d'Y. Une circulaire ministérielle en 1877 (?) avait ordonné, que prévale l'orthographie faite par les gens sur place : On ne peut pas tout automatiser. Aussi, les "noms propres" contenus dans les noms de lieux (lieux qui ne sont pas une "unité administrative") devraient s'écrire avec trait d'union (?), mais seulement ce nom propre, pas le "reste" du terme : Rue Jean-Jaurès, Place Jean-Moulin, Notre-Dame-de-Grâce, mais Notre-Dame de Grasse (Grasse étant la ville). Et si ce nom propre contient une particule "isolée", elle peut ne pas prendre un trait d'union : Boulevard Charles-de-Gaulle, mais Avenue du Général de Gaulle (le nom propre contenu ici est "de Gaulle", sa particule devient "isolée", donc pas de trait), Place Jean-de-la-Fontaine (mais une "Place Jean de la Fontaine" serait tout aussi concevable, s'il s'agit d'un dénommé Jean qui habitait près de la fontaine). Ces "détails" semblent être difficilement traitables par un robot, même si on lui donnait des listes de référence. Laissons cette partie aux humains. Une fois qu'on aura fait ça, peut-être osm deviendra la première source free pour les noms de lieux et de rues, organisée de façon cohérente, qui sait ?! Pour l'instant, les listes que je trouve, sont partielles, et parfois organisées de façon "à l'informatique ancienne", du genre "Mitterand, François, du Président, Rue" (j'invente, c'est pour donner le principe). --- Pour nous humains, les sources "de référence" se contredisent, déjà pour les noms des lieux : La Poste veut tout en majuscules, sans traits d'union, et les "Saint" abrégés en "ST"(ST ETIENNE), et sans accents, La langue française veut des accents sur les majuscules, et préférerait limiter l'utilisation d'abréviations (Saint-Étienne), Le Cadastre veut du majuscule (SAINT-ETIENNE) avec des traits d'union de partout mais sans accents, et remplace des apostrophes par des espaces. Michelin et IGN mettent des traits d'union de partout, sauf après l'abréviation "St" et après la particule du début , mais pas toujours : l'IGN met aussi des St-Germain des Prés, St-Thomas d'Aquin (ça en fait moins, de traits), mais aussi des la Celle- -St-Cloud, des Boulogne- -Billancourt, surtout autour de Paris... Il me semble que cette mode de doubler les traits soit venue à la mode dans les années soixante, je ne sais plus sur l'initiative que qui ça a été inventé... Ça fait des traits d'union en sus (est-ce cela compense pour là où en manquent ?). Et ils commencent la "phrase" en minuscules - sauf quand il s'agit de lieux de grande taille, où ils écrivent tout en majuscules. L'INSEE met des traits d'union de partout, sans distinction, met l'article du début entre parenthèses (pas beau...), et le commence avec un majuscule. (L'INSEE donne deux versions du nom, une tout en majuscules, et une mixte, plus française). Et même dans la liste INSEE, il y a des blancs qui se baladent, les articles entre parenthèses (ça fiche mal, sur une carte) et des blèmes d'accentuation. --- Sans parler des noms de rues, là, ça se corse bien plus encore :-( --- Le foisonnement des traits d'union me fait soupçonner que quelque lobby bien placé intervienne en faveur de fabricants et de commerçants de traits d'union :-( --- Bref, : Automate robot oui, mais seulement pour corriger des erreurs de frappe évidentes de blancs et de tirets, et majuscules en début du terme. Oui, trop long pour si peu. --- _______________________________________________ Talk-fr mailing list Talk-fr@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-fr