Re: [OSM-talk-fr] OSM 2 CSV : l'open data d'OSM pour tous publics ?

Charles Nepote Tue, 10 Dec 2013 02:37:36 -0800

Le 09/12/2013 17:49, Christian Quest a écrit :

On peut commencer une sorte de cahier des charges de ce que devraitfaire un tel outil d'extraction de données ?

Chic !

Il y a les formats de sortie: CSV, json, geojson, topojson, XML,shapefile, autres...

Il me semble qu'il y a quatre grandes catégories de formats.

1. pour les **néophytes** : CSV en priorité **mais** je crois merappeler que le CSV ne s'ouvre pas toujours facilement dans Excel (enfait j'ai jamais testé, quelqu'un pour confirmer ?) ; donc ods en xlsseraient bienvenus d'autant qu'on pourrait intégrer la doc des donnéesdans un onglet de ces fichiers.Je signale au passage que l'activité Semantic Web du W3C a disparue pourcéder sa place à l'activité Data, tout simplement. Et, acteemblématique, l'un des deux premiers nouveaux groupes de travail del'activité Data est "CSV on the Web" :http://www.w3.org/2013/05/lcsv-charter.html (ou comment réconcilier websémantique et CSV).

2. Pour les développeurs : vont probablement apprécier le JSON et leCSV, et s'intéresser très timidement au XML, Shapefile, etc.

3. Pour les géogeeks qui apprécieront probablement les *json, XML,shapefile, etc.


4. Pour linkeddatageeks qui apprécieront du RDF
Voir http://data.ign.fr/ et http://data.insee.fr/ .

Je sais que ça ne va pas être simple mais je ne balancerais pas audébutant une kyrielle de 10+ formats. A tout le moins, je séparerais lesformats pour débutants avec les autres formats en précisant par exemple"Exports/formats avancés" ou quelque mention du genre.

On n'est pas obligé d'avoir tous ces formats tout de suite. La catégorie3 se débrouille déjà bien toute seule. Je pense qu'il vaut mieuxconcentrer l'effort sur la catégorie 1.

Il y a les fonctionnalités complémentaires:
- wizard de sélection des POI à extraire

Avant de songer au wizard il peut s'agir de types de POI listésmanuellement (je l'ai fait dans un message plus haut mais je peux lerefaire en listant précisément les tags).Quelque chose me dit que le wizard ne va pas être simple à établir carje pense qu'il y a plein de cas bizarres.

- reverse géocodage à différents niveaux (adresse complète, commune, etc)

Le couple code INSEE / nom de commune me paraît essentiel. On saitcertains départements possèdent plusieurs communes homonymes, le codeINSEE doit desambiguiser. Le nom c'est pour lire d'un seul coup d'oeilou faire des trucs sympas avec mon tableur : filtres, totauxintermédiaires, etc. Une fois que le gus a le code INSEE il va pouvoircroiser ces données avec plein d'autres choses, déduire lesdépartements, régions, etc.

L'adresse complète ça risque d'être un peu lourd à générer non ? Et j'aipeur qu'on ai beaucoup d'erreur aujourd'hui non ?

- sélection des "colonnes" (ne récupérer que certains attributs, parforcément tous

Bof. Moi je mettrais tout. Quel est le problème ? Les débutants ferontle tri dans leur tableur. Sélectionner des colonnes me paraîtcomplexifier inutilement le process. Ou alors il faut que ce soit uneoption qui ne rajoute pas une étape. Ou bien encore on pourrait déciderde supprimer les colonnes qui possèdent moins de 1% d'informations.

En revanche il faut que la liste des colonnes utilisées soit biendocumentée. Chaque jeux de donnée produit devrait donc inclure une pagede doc automatique avec des liens sur le wiki d'OSM. Cette page de docpourrait idéalement être produite en plusieurs langues et renvoyer à deslangues différentes sur le wiki.

- simplification géométrique (par exemple ne sortir que le X/Y ducentroid pour les POI surfaciques)

Pourquoi pas, il faudrait voir à l'usage. Mon bémol est que toute donnéecalculée/transformée doit être bien documentée. Idéalement, le travailde simplification ne doit pas empêcher de télécharger des données plusbrutes.

à compléter bien sûr...

Bé oui. il va falloir voir à l'usage.

je vais essayer de rédiger quelques cas d'usage pour comprendre commentl'outil pourrait répondre à divers besoins.


Dans les fonctionnalités j'ajouterais :
-- la prévisualisation des X premières lignes de chaque jeu

-- pour chaque colonne la complétude des informations (combien decellules remplies sur le total)-- pour chaque colonne un score de qualité des données (en prenantcertaines des erreurs détectées par osmose)

-- un process d'import automatique dans uMap ou autres outils en ligne

Après il y a des fonctions beaucoup plus anecdotiques dont certainesfont le succès de certains portails open data :

-- le calcul d'un taux de "renouvellement" des données
-- la vue correspondante sur overpass-turbo ou autre

-- la production d'un catalogue DCAT pour que d'autres outils puissentvenir moissonner ces données (dont Etalab)-- pour chaque jeu, des mots-clés tirés du vocabulaire Eurovoc (utilisépar plusieurs portails open data)

-- etc.

Dans un premier temps je commencerais par un truc à la Geofabrikhttp://download.geofabrik.de/europe.html mais au lieu d'avoir seulementdes zones je mettrais deux entrées :-- Pages Zone : liste des fichiers CSV-ODS-XLS de X types de POI ; liensvers les sous-zones (un peu comme Geofabrik)-- Pages POI : listes des fichiers CSV-ODS-XLS de toutes les zones etsous-zones pour ce POI

ChN

--
Christian Quest - OpenStreetMap France
Un nouveau serveur pour OSM... http://donate.osm.org/server2013/



_______________________________________________
Talk-fr mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-fr

Re: [OSM-talk-fr] OSM 2 CSV : l'open data d'OSM pour tous publics ?

Répondre à