> sul fatto di usare un tokenizzatore morfologico sono in polemica coi > giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e > che all'atto pratico la cosa non servirebbe.
Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi propri, toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", perché mentre i testi per l'addestramento possono cambiare, il vocabolario (ovvero la tavola di conversione, token -> numero) rimane sempre lo stesso, in fase di learning, così come in fase di inference. Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro token, così: man-gi-ars-elo. Il mio tokenizer (testi di letteratura pretrattati), in tre token: man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. A.