Le 09/12/2013 17:49, Christian Quest a écrit :
On peut commencer une sorte de cahier des charges de ce que devrait
faire un tel outil d'extraction de données ?
Chic !
Il y a les formats de sortie: CSV, json, geojson, topojson, XML,
shapefile, autres...
Il me semble qu'il y a quatre grandes catégories de formats.
1. pour les **néophytes** : CSV en priorité **mais** je crois me
rappeler que le CSV ne s'ouvre pas toujours facilement dans Excel (en
fait j'ai jamais testé, quelqu'un pour confirmer ?) ; donc ods en xls
seraient bienvenus d'autant qu'on pourrait intégrer la doc des données
dans un onglet de ces fichiers.
Je signale au passage que l'activité Semantic Web du W3C a disparue pour
céder sa place à l'activité Data, tout simplement. Et, acte
emblématique, l'un des deux premiers nouveaux groupes de travail de
l'activité Data est "CSV on the Web" :
http://www.w3.org/2013/05/lcsv-charter.html (ou comment réconcilier web
sémantique et CSV).
2. Pour les développeurs : vont probablement apprécier le JSON et le
CSV, et s'intéresser très timidement au XML, Shapefile, etc.
3. Pour les géogeeks qui apprécieront probablement les *json, XML,
shapefile, etc.
4. Pour linkeddatageeks qui apprécieront du RDF
Voir http://data.ign.fr/ et http://data.insee.fr/ .
Je sais que ça ne va pas être simple mais je ne balancerais pas au
débutant une kyrielle de 10+ formats. A tout le moins, je séparerais les
formats pour débutants avec les autres formats en précisant par exemple
"Exports/formats avancés" ou quelque mention du genre.
On n'est pas obligé d'avoir tous ces formats tout de suite. La catégorie
3 se débrouille déjà bien toute seule. Je pense qu'il vaut mieux
concentrer l'effort sur la catégorie 1.
Il y a les fonctionnalités complémentaires:
- wizard de sélection des POI à extraire
Avant de songer au wizard il peut s'agir de types de POI listés
manuellement (je l'ai fait dans un message plus haut mais je peux le
refaire en listant précisément les tags).
Quelque chose me dit que le wizard ne va pas être simple à établir car
je pense qu'il y a plein de cas bizarres.
- reverse géocodage à différents niveaux (adresse complète, commune, etc)
Le couple code INSEE / nom de commune me paraît essentiel. On sait
certains départements possèdent plusieurs communes homonymes, le code
INSEE doit desambiguiser. Le nom c'est pour lire d'un seul coup d'oeil
ou faire des trucs sympas avec mon tableur : filtres, totaux
intermédiaires, etc. Une fois que le gus a le code INSEE il va pouvoir
croiser ces données avec plein d'autres choses, déduire les
départements, régions, etc.
L'adresse complète ça risque d'être un peu lourd à générer non ? Et j'ai
peur qu'on ai beaucoup d'erreur aujourd'hui non ?
- sélection des "colonnes" (ne récupérer que certains attributs, par
forcément tous
Bof. Moi je mettrais tout. Quel est le problème ? Les débutants feront
le tri dans leur tableur. Sélectionner des colonnes me paraît
complexifier inutilement le process. Ou alors il faut que ce soit une
option qui ne rajoute pas une étape. Ou bien encore on pourrait décider
de supprimer les colonnes qui possèdent moins de 1% d'informations.
En revanche il faut que la liste des colonnes utilisées soit bien
documentée. Chaque jeux de donnée produit devrait donc inclure une page
de doc automatique avec des liens sur le wiki d'OSM. Cette page de doc
pourrait idéalement être produite en plusieurs langues et renvoyer à des
langues différentes sur le wiki.
- simplification géométrique (par exemple ne sortir que le X/Y du
centroid pour les POI surfaciques)
Pourquoi pas, il faudrait voir à l'usage. Mon bémol est que toute donnée
calculée/transformée doit être bien documentée. Idéalement, le travail
de simplification ne doit pas empêcher de télécharger des données plus
brutes.
à compléter bien sûr...
Bé oui. il va falloir voir à l'usage.
je vais essayer de rédiger quelques cas d'usage pour comprendre comment
l'outil pourrait répondre à divers besoins.
Dans les fonctionnalités j'ajouterais :
-- la prévisualisation des X premières lignes de chaque jeu
-- pour chaque colonne la complétude des informations (combien de
cellules remplies sur le total)
-- pour chaque colonne un score de qualité des données (en prenant
certaines des erreurs détectées par osmose)
-- un process d'import automatique dans uMap ou autres outils en ligne
Après il y a des fonctions beaucoup plus anecdotiques dont certaines
font le succès de certains portails open data :
-- le calcul d'un taux de "renouvellement" des données
-- la vue correspondante sur overpass-turbo ou autre
-- la production d'un catalogue DCAT pour que d'autres outils puissent
venir moissonner ces données (dont Etalab)
-- pour chaque jeu, des mots-clés tirés du vocabulaire Eurovoc (utilisé
par plusieurs portails open data)
-- etc.
Dans un premier temps je commencerais par un truc à la Geofabrik
http://download.geofabrik.de/europe.html mais au lieu d'avoir seulement
des zones je mettrais deux entrées :
-- Pages Zone : liste des fichiers CSV-ODS-XLS de X types de POI ; liens
vers les sous-zones (un peu comme Geofabrik)
-- Pages POI : listes des fichiers CSV-ODS-XLS de toutes les zones et
sous-zones pour ce POI
ChN
--
Christian Quest - OpenStreetMap France
Un nouveau serveur pour OSM... http://donate.osm.org/server2013/
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr