> Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza.

l'ho sempre usato con soddisfazione :-)

secondo me, con opportuni adattamenti, varrebbe la pena di provare a vedere
se migliora un LLM 'pure Italian'

colgo l'occasione per segnalarvi un mio articolo di follow-on
<https://ilmanifesto.it/lesplosione-ribelle-contro-limpero-dellia-generativa/r/vyJQ3cIqSqfeRCkTovd-K>
sul tema dei modelli locali

G.



On Wed, 22 May 2024 at 10:20, Giuseppe Attardi <atta...@di.unipi.it> wrote:

> Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza.
> Basta indicare lang=it
>
> [image: stanza-card.png]
>
> Tokenization & Sentence Segmentation
> <https://stanfordnlp.github.io/stanza/tokenize.html>
> stanfordnlp.github.io <https://stanfordnlp.github.io/stanza/tokenize.html>
> <https://stanfordnlp.github.io/stanza/tokenize.html>
>
>
> — Beppe
>
> On 22 May 2024, at 09:16, nexa-requ...@server-nexa.polito.it wrote:
>
> Message: 3
> Date: Tue, 21 May 2024 22:34:14 +0200
> From: Antonio <anto...@piumarossa.it>
> To: nexa@server-nexa.polito.it
> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
> Manzoni
> Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it>
> Content-Type: text/plain; charset=ISO-8859-1
>
> sul fatto di usare un tokenizzatore morfologico sono in polemica coi
> giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e
> che all'atto pratico la cosa non servirebbe.
>
>
> Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente
> morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano
> salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi
> propri, toponimi, ecc.). Occorre un'attenzione particolare al
> "vocabolario", perché mentre i testi per l'addestramento possono cambiare,
> il vocabolario (ovvero la tavola di conversione, token -> numero) rimane
> sempre lo stesso, in fase di learning, così come in fase di inference.
> Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro
> token, così: man-gi-ars-elo.
> Il mio tokenizer (testi di letteratura pretrattati), in tre token:
> man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.
>
> A.
>
>
>
>

Reply via email to