Buonasera, per chi volesse approfondire le tematiche della linguistica computazionale (e dintorni), segnalo in questo thread che in questi giorni a Torino ci sono i convegni internazionali COLING e LREC al Lingotto: https://lrec-coling-2024.org/
Quest’anno sono arrivate circa 3k submission (di cui credo 30% dalla Cina). Gli LLM hanno una parte rilevante nel convegno. Buona serata, Andrea Il giorno mer 22 mag 2024 alle 10:08 alessandro marzocchi < alemar...@gmail.com> ha scritto: > Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di > significati, condivisione di significati) che progressivamente lega parole, > frasi, testi al loro significato? > A me pare di si e che sia inevitabile, mi pare anche di trovare conferma > in questi scambi. Sbaglio? > Si può automatizzare "cum grano salis" che cita Antonio? > Grazie e cordialità. Duccio (Alessandro Marzocchi) > > Il giorno mer 22 mag 2024 alle ore 09:17 < > nexa-requ...@server-nexa.polito.it> ha scritto: > >> Message: 3 >> Date: Tue, 21 May 2024 22:34:14 +0200 >> From: Antonio <anto...@piumarossa.it> >> To: nexa@server-nexa.polito.it >> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e >> Manzoni >> Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3...@piumarossa.it> >> Content-Type: text/plain; charset=ISO-8859-1 >> > sul fatto di usare un tokenizzatore morfologico sono in polemica coi >> > giovani nerd con cui lavoro i quali dicono che sono un vecchio >> parruccone e >> > che all'atto pratico la cosa non servirebbe. >> >> Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente >> morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano >> salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi >> propri, toponimi, ecc.). Occorre un'attenzione particolare al >> "vocabolario", perché mentre i testi per l'addestramento possono cambiare, >> il vocabolario (ovvero la tavola di conversione, token -> numero) rimane >> sempre lo stesso, in fase di learning, così come in fase di inference. >> Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro >> token, così: man-gi-ars-elo. >> Il mio tokenizer (testi di letteratura pretrattati), in tre token: >> man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. >> A. >> >>