Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza.
Basta indicare lang=it

https://stanfordnlp.github.io/stanza/tokenize.html
Tokenization & Sentence Segmentation
stanfordnlp.github.io


— Beppe

> On 22 May 2024, at 09:16, nexa-requ...@server-nexa.polito.it wrote:
> 
> Message: 3
> Date: Tue, 21 May 2024 22:34:14 +0200
> From: Antonio <anto...@piumarossa.it <mailto:anto...@piumarossa.it>>
> To: nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>
> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
>       Manzoni
> Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it 
> <mailto:20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it>>
> Content-Type: text/plain; charset=ISO-8859-1
> 
>> sul fatto di usare un tokenizzatore morfologico sono in polemica coi
>> giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e
>> che all'atto pratico la cosa non servirebbe.
> 
> Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente 
> morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano 
> salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi 
> propri, toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", 
> perché mentre i testi per l'addestramento possono cambiare, il vocabolario 
> (ovvero la tavola di conversione, token -> numero) rimane sempre lo stesso, 
> in fase di learning, così come in fase di inference.
> Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro 
> token, così: man-gi-ars-elo.
> Il mio tokenizer (testi di letteratura pretrattati), in tre token: 
> man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.
> 
> A.
> 
> 

Reply via email to