Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Giacomo Tesio Mon, 02 Oct 2023 09:30:36 -0700

Sicuro sicuro? :-D

Il 2 Ottobre 2023 14:50:55 UTC, Antonio ha scritto:
> > Ogni token può rappresentare anche più di una parola
> 
> No, i token sono fissi e possono (oppure no) iniziare con lo spazio. Quindi 
> non ci 
> possono essere token con lo spazio in mezzo, ovvero formati da più di una 
> parola.


L'insieme dei token è fisso a valle del processo di programmazione statistica 
ma 
è determinato durante tale processo. [1]


La dimensione del token può variare a seconda del processo di tokenizzazione 
(variando di conseguenza i diversi grafi di frequenze relative individuate 
nei testi "sorgente")

La tokenizzazione MWU (multi words unit) è più recente e meno usata, ma 
parlando in 
generale di LLM invece di una specifica implementazione non vedo perché 
ignorarla.


Trovi una buona introduzione al riguardo qui 
https://journals.openedition.org/lexis/6231


D'altronde se ci pensi qualsiasi LLM programmato su sorgenti software
potrebbe ragionevolmente trattare keyword costituite da sequenze di caratteri 
contenenti spazi come singolo token.

È il caso, ad esempio, di POINTER TO o ARRAY OF in Oberon-07.


A presto!


Giacomo
[1] potenzialmente, nulla vieta di modificare i vettori associati ai token 
disponibili
   a posteriori, ad esempio sulla base degli input forniti dagli utenti, per 
dare l'impressione 
   che il software "impari".
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Reply via email to