Per curiosita’, esiste un altro Minerva, LLM specializzato nel supporto clienti, con cui lavoro da settembre 2021 e creato da Cosimo Spera, gia’ Prof di Statistica a Siena, poi Berkley e da anni a San Francisco. Pensa te la fantasia nel scegliere i nomi 😊
Se qualcuno fosse interessato, creo il contatto con Cosimo. Ciao Roberto From: nexa <nexa-boun...@server-nexa.polito.it> On Behalf Of Guido Vetere Sent: Thursday, May 23, 2024 6:32 AM To: Giuseppe Attardi <atta...@di.unipi.it> Cc: nexa <nexa@server-nexa.polito.it> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzon > Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza. l'ho sempre usato con soddisfazione :-) secondo me, con opportuni adattamenti, varrebbe la pena di provare a vedere se migliora un LLM 'pure Italian' colgo l'occasione per segnalarvi un mio articolo di follow-on<https://eu-west-1.protection.sophos.com?d=ilmanifesto.it&u=aHR0cHM6Ly9pbG1hbmlmZXN0by5pdC9sZXNwbG9zaW9uZS1yaWJlbGxlLWNvbnRyby1saW1wZXJvLWRlbGxpYS1nZW5lcmF0aXZhL3IvdnlKUTNjSXFTcWZlUkNrVG92ZC1L&i=NjUwODJhZTVlMDVkNmYyNDlkNTNjOTcy&t=emVhc2Y5MVBNcnpPemtnVnpSWWdoK2tSbFBqc3Y2VncvZmF6b2FtS3dhUT0=&h=114b789254f8426fb062ff9501c59cb3&s=AVNPUEhUT0NFTkNSWVBUSVZIDzAwy2k-XXZH0rKNiLigYOxy7SMx-hKRcpPSDBsvdy0OtlM8z7K-Dk9w-Tjog-M> sul tema dei modelli locali G. On Wed, 22 May 2024 at 10:20, Giuseppe Attardi <atta...@di.unipi.it<mailto:atta...@di.unipi.it>> wrote: Il nostro tokenizzatore morfologico per l’italiano è incluso in Stanza. Basta indicare lang=it [cid:image001.png@01DAACFD.F253EA20] Tokenization & Sentence Segmentation<https://eu-west-1.protection.sophos.com?d=stanfordnlp.github.io&u=aHR0cHM6Ly9zdGFuZm9yZG5scC5naXRodWIuaW8vc3RhbnphL3Rva2VuaXplLmh0bWw=&i=NjUwODJhZTVlMDVkNmYyNDlkNTNjOTcy&t=ekc0cTJiY29aOWthZmNZVFluNlNZalV0R2ZGWnA5VnpaVGVMdzl0Rmh1WT0=&h=114b789254f8426fb062ff9501c59cb3&s=AVNPUEhUT0NFTkNSWVBUSVZIDzAwy2k-XXZH0rKNiLigYOxy7SMx-hKRcpPSDBsvdy0OtlM8z7K-Dk9w-Tjog-M> stanfordnlp.github.io<https://eu-west-1.protection.sophos.com?d=stanfordnlp.github.io&u=aHR0cHM6Ly9zdGFuZm9yZG5scC5naXRodWIuaW8vc3RhbnphL3Rva2VuaXplLmh0bWw=&i=NjUwODJhZTVlMDVkNmYyNDlkNTNjOTcy&t=ekc0cTJiY29aOWthZmNZVFluNlNZalV0R2ZGWnA5VnpaVGVMdzl0Rmh1WT0=&h=114b789254f8426fb062ff9501c59cb3&s=AVNPUEhUT0NFTkNSWVBUSVZIDzAwy2k-XXZH0rKNiLigYOxy7SMx-hKRcpPSDBsvdy0OtlM8z7K-Dk9w-Tjog-M> — Beppe On 22 May 2024, at 09:16, nexa-requ...@server-nexa.polito.it<mailto:nexa-requ...@server-nexa.polito.it> wrote: Message: 3 Date: Tue, 21 May 2024 22:34:14 +0200 From: Antonio <anto...@piumarossa.it<mailto:anto...@piumarossa.it>> To: nexa@server-nexa.polito.it<mailto:nexa@server-nexa.polito.it> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it<mailto:20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it>> Content-Type: text/plain; charset=ISO-8859-1 sul fatto di usare un tokenizzatore morfologico sono in polemica coi giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e che all'atto pratico la cosa non servirebbe. Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi propri, toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", perché mentre i testi per l'addestramento possono cambiare, il vocabolario (ovvero la tavola di conversione, token -> numero) rimane sempre lo stesso, in fase di learning, così come in fase di inference. Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro token, così: man-gi-ars-elo. Il mio tokenizer (testi di letteratura pretrattati), in tre token: man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. A.