Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

380° Mon, 02 Oct 2023 04:27:06 -0700

Ciao Antonio!

Antonio <anto...@piumarossa.it> writes:


>> > Sto semplicemente dicendo che quei testi sono in gran parte presenti nel 
>> > LLM seppure 
>> > codificati con perdita di informazione.
> ... 
>> OK, su cosa succede tecnicamente, ovvero sul tipo di elaborazione e
>> immagazzinamento dei testi _elaborari_, credo sia tutto sufficientemente
>> chiaro.
>
> No, aspettate, forse mi sono perso qualche puntata precedente.

No no, è solo che io ho eccessivamente semplificato... in effetti si
tratta di semplicità insormontabili [1]

> I testi non sono per nulla presenti nell'LLM, neanche in forma "compressa".

[...]

> La prima operazione che fa un LLM è la tokenizzazione, nel caso dell'esempio:

[...]

> Il numero trovato (su una versione mininale di ChatGPT) è 33704.
> ChatGPT prende questo numero e lo accoda a 30, e così via ...
> Alla fine, la sequenza completa di ChatGPT sarà: 33704,

non 8118? :-)  (non è fondamentale, eh!)

> 659, 387, 334, 2108, 498, 434, 68, 9225, 300, 1726, 1013, 7780, 378, che 
> "detokenizzato", diventa: "Giove ha ufficialmente 79 lune confermate".

Grazie di aver esemplificato il processo di "(de)tokeinizzazione" così
efficacemente, potrei obiettare il fatto che per "detokenizzare" la
corrispondenza tra numeri e testo (ovvero il testo elaborato in forma di
array o matrice) è memorizzato no?

...ma non cambierebbe di molto la sostanza della descrizione di cosa
succede "dentro" un LLM

Ciao, 380°


[1] 
https://it.wikipedia.org/wiki/Semplicit%C3%A0_insormontabili_-_39_storie_filosofiche

-- 
380° (Giovanni Biscuolo public alter ego)

«Noi, incompetenti come siamo,
 non abbiamo alcun titolo per suggerire alcunché»

Disinformation flourishes because many people care deeply about injustice
but very few check the facts.  Ask me about <https://stallmansupport.org>.

signature.asc
Description: PGP signature

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Reply via email to