Buonasera,

per chi volesse approfondire le tematiche della linguistica computazionale
(e dintorni), segnalo in questo thread che in questi giorni a Torino ci
sono i convegni internazionali COLING e LREC al Lingotto:
https://lrec-coling-2024.org/

Quest’anno sono arrivate circa 3k submission (di cui credo 30% dalla Cina).
Gli LLM hanno una parte rilevante nel convegno.

Buona serata,
Andrea


Il giorno mer 22 mag 2024 alle 10:08 alessandro marzocchi <
alemar...@gmail.com> ha scritto:

> Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di
> significati, condivisione di significati) che progressivamente lega parole,
> frasi, testi al loro significato?
> A me pare di si e che sia inevitabile, mi pare anche di trovare conferma
> in questi scambi. Sbaglio?
> Si può automatizzare "cum grano salis" che cita Antonio?
> Grazie e cordialità. Duccio (Alessandro Marzocchi)
>
> Il giorno mer 22 mag 2024 alle ore 09:17 <
> nexa-requ...@server-nexa.polito.it> ha scritto:
>
>> Message: 3
>> Date: Tue, 21 May 2024 22:34:14 +0200
>> From: Antonio <anto...@piumarossa.it>
>> To: nexa@server-nexa.polito.it
>> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
>>         Manzoni
>> Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it>
>> Content-Type: text/plain; charset=ISO-8859-1
>> > sul fatto di usare un tokenizzatore morfologico sono in polemica coi
>> > giovani nerd con cui lavoro i quali dicono che sono un vecchio
>> parruccone e
>> > che all'atto pratico la cosa non servirebbe.
>>
>> Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente
>> morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano
>> salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi
>> propri, toponimi, ecc.). Occorre un'attenzione particolare al
>> "vocabolario", perché mentre i testi per l'addestramento possono cambiare,
>> il vocabolario (ovvero la tavola di conversione, token -> numero) rimane
>> sempre lo stesso, in fase di learning, così come in fase di inference.
>> Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro
>> token, così: man-gi-ars-elo.
>> Il mio tokenizer (testi di letteratura pretrattati), in tre token:
>> man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.
>> A.
>>
>>

Reply via email to