Salve Stefano,

On Mon, 9 Sep 2024 10:56:06 +0200 Stefano Zacchiroli wrote:

> La recitation è assolutamente *possibile* [...]
> La frequenza dipende da proprietà statistiche del training dataset
> [...]
> Quello che invece regolarmente fanno attori come GitHub con Copilot è
> di aggiungere a valle della generazione con gli LLM dei filtri basati
> su tecniche di code clone detection e anti-plagio [...]
> Microsoft si sente abbastanza sicura di tutto questo da offrire
> garanzie legali in termini di violazione del diritto d'autore quando
> si usa la suite Copilot. (Non a caso lo fa *solo* se l'utente non ha
> disabilitato il filtering a valle di cui parlavo sopra.)
> 
> [...]
>
> Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o
> meno un opera derivata dei suoi training input.

Non mi è chiaro il passaggio logico.


Sappiamo tutti che gli output degli LLM includono stralci delle opere
utilizzati per programmarli.

Sappiamo tutti che la frequenza di questi stralci dipende dalle
proprietà statistiche del dataset costituito da tali opere.

Sappiamo addirittura che Microsoft & friends post-processano gli output
degli LLM per escludere tali testi con tecniche anti plagio.


Come altro potremmo interpretare questi fatti se non riconoscendo che
il LLM è un opera derivata (un eseguibili prodotto attraverso un
processo di compressione con perdita) dei testi utilizzati per
programmarlo?

Perché adottare filtri anti-plagio se le opere non fossero codificate
(pur in formato compresso con perdita) nelle matrici che costituiscono
l'LLM e di conseguenza nell'output che questi producono?


Direi al contrario che i fatti elencati *dimostrino* come le
"AI generative" siano opere derivate delle opere utilizzate 
per programmarle.

La necessità di filtri anti-plagio dimostra gli innumerevoli plagi
avvenuti a monte, durante la realizzazione del "modello".


O forse intendi che tutto questo non ci aiuta nel dibattito perché
risponde alla questione al di la di ogni ragionevole dubbio?

O ancora che non aiuta chi vuole che il dibattito continui per evitare
(o rimandare) gli obblighi connessi alle licenze copyleft?

O ancora che non aiuta chi vuole che il dibattito continui per evitare
di rispettare la normativa vigente pagando agli autori delle opere il
diritto di creare opere derivate?


Giacomo

Reply via email to