Il giorno 01 settembre 2013 11:55, Daniele Forsi <dfo...@gmail.com> ha scritto:
> Buongiorno lista, > > dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i > nomi delle strade italiane per creare un nuovo dizionario per il > correttore ortografico. > Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare > più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi > da oltre 40.000 parole sconosciute a meno di 10.000, trovate un > confronto per i capoluoghi di Regione in [3], il caso più eclatante è > Roma che è passata da 2776 a 107 parole sconosciute! > > Aspetti positivi: > * ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari > che ho usato finora hanno 22410 parole in quello predefinito e 75131 > in quelli creati a partire dai dati OSM) > * ho scartato solo 1795 parole (ad esempio quelle che contengono numeri > arabi) > > Aspetti negativi: > * i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare > come errore i nomi propri con l'iniziale minuscola o le parole tutte > in maiuscolo > * i dati contengono errori evidenti che possono essere filtrati > automaticamente (come "0VIDIO" dove l'iniziale è uno zero invece che > una O) però rimane il dubbio di quanti errori nascosti ci siano > * non è possibile usare le parole con la E accentata perché nei dati > c'è l'apice quindi non è possibile distinguere l'accento acuto da > quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò > solo le parole accentate) > * dai dati sono escluse le province di Bolzano e Trento perché sono > dati per il catasto > > In definitiva questi dati sono utili per eliminare un gran numero di > falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto > che gli stessi errori NON siano stati commessi anche da chi ha scritto > questi dati... > > > [1] > http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html > [2] http://www.forsi.it/osm/spellcheck/highway/boundary/ > [3] http://www.forsi.it/node/135 > -- > Daniele Forsi > > _______________________________________________ > Talk-it mailing list > Talk-it@openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-it >
_______________________________________________ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it