Per curiosita’, esiste un altro Minerva, LLM specializzato nel supporto 
clienti, con cui lavoro da settembre 2021 e creato da Cosimo Spera, gia’ Prof 
di Statistica a Siena, poi Berkley e da anni a San Francisco.
Pensa te la fantasia nel scegliere i nomi 😊

Se qualcuno fosse interessato, creo il contatto con Cosimo.

Ciao
Roberto

From: nexa <nexa-boun...@server-nexa.polito.it> On Behalf Of Guido Vetere
Sent: Thursday, May 23, 2024 6:32 AM
To: Giuseppe Attardi <atta...@di.unipi.it>
Cc: nexa <nexa@server-nexa.polito.it>
Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzon


> Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza.

l'ho sempre usato con soddisfazione :-)

secondo me, con opportuni adattamenti, varrebbe la pena di provare a vedere se 
migliora un LLM 'pure Italian'

colgo l'occasione per segnalarvi un mio articolo di 
follow-on<https://eu-west-1.protection.sophos.com?d=ilmanifesto.it&u=aHR0cHM6Ly9pbG1hbmlmZXN0by5pdC9sZXNwbG9zaW9uZS1yaWJlbGxlLWNvbnRyby1saW1wZXJvLWRlbGxpYS1nZW5lcmF0aXZhL3IvdnlKUTNjSXFTcWZlUkNrVG92ZC1L&i=NjUwODJhZTVlMDVkNmYyNDlkNTNjOTcy&t=emVhc2Y5MVBNcnpPemtnVnpSWWdoK2tSbFBqc3Y2VncvZmF6b2FtS3dhUT0=&h=114b789254f8426fb062ff9501c59cb3&s=AVNPUEhUT0NFTkNSWVBUSVZIDzAwy2k-XXZH0rKNiLigYOxy7SMx-hKRcpPSDBsvdy0OtlM8z7K-Dk9w-Tjog-M>
 sul tema dei modelli locali

G.



On Wed, 22 May 2024 at 10:20, Giuseppe Attardi 
<atta...@di.unipi.it<mailto:atta...@di.unipi.it>> wrote:
Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza.
Basta indicare lang=it

[cid:image001.png@01DAACFD.F253EA20]

Tokenization & Sentence 
Segmentation<https://eu-west-1.protection.sophos.com?d=stanfordnlp.github.io&u=aHR0cHM6Ly9zdGFuZm9yZG5scC5naXRodWIuaW8vc3RhbnphL3Rva2VuaXplLmh0bWw=&i=NjUwODJhZTVlMDVkNmYyNDlkNTNjOTcy&t=ekc0cTJiY29aOWthZmNZVFluNlNZalV0R2ZGWnA5VnpaVGVMdzl0Rmh1WT0=&h=114b789254f8426fb062ff9501c59cb3&s=AVNPUEhUT0NFTkNSWVBUSVZIDzAwy2k-XXZH0rKNiLigYOxy7SMx-hKRcpPSDBsvdy0OtlM8z7K-Dk9w-Tjog-M>
stanfordnlp.github.io<https://eu-west-1.protection.sophos.com?d=stanfordnlp.github.io&u=aHR0cHM6Ly9zdGFuZm9yZG5scC5naXRodWIuaW8vc3RhbnphL3Rva2VuaXplLmh0bWw=&i=NjUwODJhZTVlMDVkNmYyNDlkNTNjOTcy&t=ekc0cTJiY29aOWthZmNZVFluNlNZalV0R2ZGWnA5VnpaVGVMdzl0Rmh1WT0=&h=114b789254f8426fb062ff9501c59cb3&s=AVNPUEhUT0NFTkNSWVBUSVZIDzAwy2k-XXZH0rKNiLigYOxy7SMx-hKRcpPSDBsvdy0OtlM8z7K-Dk9w-Tjog-M>




— Beppe


On 22 May 2024, at 09:16, 
nexa-requ...@server-nexa.polito.it<mailto:nexa-requ...@server-nexa.polito.it> 
wrote:

Message: 3
Date: Tue, 21 May 2024 22:34:14 +0200
From: Antonio <anto...@piumarossa.it<mailto:anto...@piumarossa.it>>
To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it>
Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
Manzoni
Message-ID: 
<20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it<mailto:20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it>>
Content-Type: text/plain; charset=ISO-8859-1


sul fatto di usare un tokenizzatore morfologico sono in polemica coi
giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e
che all'atto pratico la cosa non servirebbe.

Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente 
morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano salis", 
pretrattando i testi (ad esempio eliminando segni, simboli, nomi propri, 
toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", perché 
mentre i testi per l'addestramento possono cambiare, il vocabolario (ovvero la 
tavola di conversione, token -> numero) rimane sempre lo stesso, in fase di 
learning, così come in fase di inference.
Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro token, 
così: man-gi-ars-elo.
Il mio tokenizer (testi di letteratura pretrattati), in tre token: 
man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.

A.



Reply via email to