Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

380° Sat, 30 Sep 2023 07:03:39 -0700

Ciao Giacomo,

Giacomo Tesio <giac...@tesio.it> writes:


[...]

> Ciò che chiami "modello" non è stato istruito ma programmato
> statisticamente usando determinati testi "sorgente".

questo è un concetto _fondamentale_ e anche ampiamente condiviso da
qutti gli addetti ai lavori, il fatto che anche qui se ne discuta anche
fin troppo dipende solo dalla *confusione* proveniente dal "ambiente
esterno" :-O

in più, direi che tra colleghi di questa lista ogni tanto possiamo anche
perdonarci qualche imprecisione terminologica

poi, per stabilire se l'utilizzo di qualsiasi testo (tutti i testi sono
tutelati da copyright, anche il pubblico dominio *è* copyright) come
input per l'elaborazione di modelli costituisca di per sè violazione o
meno del copyright non è importante sapere se il modello è programmato
statisticamente o meno

> Il "modello" rappresenta una codifica parziale (o se peferisci, una
> compressione con perdita di informazione) con interferenze (le varie
> sorgenti casuali utilizzate durante la programmazione statistica o
> durante l'esecuzione del programma e poi scartate per poter fingere
> che l'output non sia deterministico).

esatto: una (ri)codifica con _rielaborazione_ della **forma** del testo

qui non siamo nemmeno nel c.d. fair use (riproduzione parziale ai fini
didattici, parodistici, bla bla...), siamo nella rielaborazone della
**forma**, che è l'unica cosa protetta dal copyright: non sono protette
le idee, non la semantica (che l'AI non sa nemmeno cos'è) e nemmeno la
sintassi

> Dunque il modello CONTIENE, seppur in forma difficile da estrarre e
> non necessariamente corrispondente all'intento comunicativo dei
> rispettivi autori, ampie parti dei testi originali.

ecco: qui proprio non capisco quello che vuoi dire

stai dicendo che quelle parti di testo, che sono espresse in /forma/
difficilmente estraibile, sarebbero plagio (ampie parti dei testi
originali)?

> Un esempio particolarmente lampante di questo meccanismo fu
> evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice
> sotto GPL in violazione della stessa, copiando alla lettera il
> sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un
> autore inesistente.

già, ma come ha fatto CopyALot, **se** è un LLM, a riprodurre alla
lettera il sorgente?  Microsofoft bara o, trattandosi di software, a
precisa domanda l'LLM non ha potuto fare altro che fornire precisa
risposta nell'unica **forma** /ricavata/ dal suo modello, perché il
"conosce" solo quella precisa forma di "risposta" che risponde
perfettamente alla "domanda"?

ma a ben pansarci: che importa /come/ abbia fatto CopyALot a sputare
fuori quel codice con attribuzione sbagliata?  Se io avessi cercato quel
codice con altri criteri, male interpretando l'attribuzione, cosa
sarebbe cambiato?  Sono _io_ a essere responsabile di eventuale
violazione (e per questo ci vuole un processo _di_merito_).

il problema, come ho detto in altre occasioni, è che /ogni/ fornitore di
servizi che usano LLM per sputare scemate a pseudo-caso in output,
scrive in piccolo e con un linguaggio che a volte supera quello delle
clausole vessatorie che non si prende la responsabilità dell'adeguatezza
del testo, _nemmeno_ in merito alla sua legalità: è _la_persona_ che usa
l'output che si prende la responsabilità di /decidere/ in merito alla
sua adeguatezza, _anche_ legale, in funzione di come lo vuole
utilizzare.

...certo, Microsoft e compagnia cantante dovrebbero scrivere 'sta cosa
su **ogni** output (watermarking, quel che l'è)... ieri, non domani

[...]

> Violazioni particolarmente gravi perché il codice GPL viene poi
> incluso in prodotti proprietari.

se permetti, sono stracavolacci di quelli che copia-incollano l'output
da CopyALot, non ho verificato ma scommetto un fiorino che è pure
scritto chiaramente nelle condizioni di utilizzo del servizio

[...]

> Personalmente sarei felicissimo di scoprire che fare uno zip di
> windows o office è sufficiente a far decadere i diritti di Microsoft a
> su di esso.

ovviamente no... ma meno male che nessuno ha mai pensato di accusare il
software zip di violare il diritto d'autore per via di quello che
"zippa" :-D

[...]

> Ma dentro un LLM non opera alcuna intelligenza, solo rappresentazioni 
> vettoriali di 
> testi attraversate lungo tracciati statisticamente probabili selezionati in 
> modo (pseudo)
> casuale entro un errore accettabile...

quale sarebbe la violazione del diritto d'autore, se non c'è plagio *e*
chi usa quei testi per usarli in una elaborazione ha *pagato* "i libri"?

[...]

saluti, 380°

-- 
380° (Giovanni Biscuolo public alter ego)

«Noi, incompetenti come siamo,
 non abbiamo alcun titolo per suggerire alcunché»

Disinformation flourishes because many people care deeply about injustice
but very few check the facts.  Ask me about <https://stallmansupport.org>.

signature.asc
Description: PGP signature

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Reply via email to