Ciao Giacomo, Giacomo Tesio <giac...@tesio.it> writes:
[...] > Ciò che chiami "modello" non è stato istruito ma programmato > statisticamente usando determinati testi "sorgente". questo è un concetto _fondamentale_ e anche ampiamente condiviso da qutti gli addetti ai lavori, il fatto che anche qui se ne discuta anche fin troppo dipende solo dalla *confusione* proveniente dal "ambiente esterno" :-O in più, direi che tra colleghi di questa lista ogni tanto possiamo anche perdonarci qualche imprecisione terminologica poi, per stabilire se l'utilizzo di qualsiasi testo (tutti i testi sono tutelati da copyright, anche il pubblico dominio *è* copyright) come input per l'elaborazione di modelli costituisca di per sè violazione o meno del copyright non è importante sapere se il modello è programmato statisticamente o meno > Il "modello" rappresenta una codifica parziale (o se peferisci, una > compressione con perdita di informazione) con interferenze (le varie > sorgenti casuali utilizzate durante la programmazione statistica o > durante l'esecuzione del programma e poi scartate per poter fingere > che l'output non sia deterministico). esatto: una (ri)codifica con _rielaborazione_ della **forma** del testo qui non siamo nemmeno nel c.d. fair use (riproduzione parziale ai fini didattici, parodistici, bla bla...), siamo nella rielaborazone della **forma**, che è l'unica cosa protetta dal copyright: non sono protette le idee, non la semantica (che l'AI non sa nemmeno cos'è) e nemmeno la sintassi > Dunque il modello CONTIENE, seppur in forma difficile da estrarre e > non necessariamente corrispondente all'intento comunicativo dei > rispettivi autori, ampie parti dei testi originali. ecco: qui proprio non capisco quello che vuoi dire stai dicendo che quelle parti di testo, che sono espresse in /forma/ difficilmente estraibile, sarebbero plagio (ampie parti dei testi originali)? > Un esempio particolarmente lampante di questo meccanismo fu > evidenziato con Microsoft Copilot (aka CopyALot) che distribuì codice > sotto GPL in violazione della stessa, copiando alla lettera il > sorgente ma (guarda caso) attribuendogli una licenza permissiva ed un > autore inesistente. già, ma come ha fatto CopyALot, **se** è un LLM, a riprodurre alla lettera il sorgente? Microsofoft bara o, trattandosi di software, a precisa domanda l'LLM non ha potuto fare altro che fornire precisa risposta nell'unica **forma** /ricavata/ dal suo modello, perché il "conosce" solo quella precisa forma di "risposta" che risponde perfettamente alla "domanda"? ma a ben pansarci: che importa /come/ abbia fatto CopyALot a sputare fuori quel codice con attribuzione sbagliata? Se io avessi cercato quel codice con altri criteri, male interpretando l'attribuzione, cosa sarebbe cambiato? Sono _io_ a essere responsabile di eventuale violazione (e per questo ci vuole un processo _di_merito_). il problema, come ho detto in altre occasioni, è che /ogni/ fornitore di servizi che usano LLM per sputare scemate a pseudo-caso in output, scrive in piccolo e con un linguaggio che a volte supera quello delle clausole vessatorie che non si prende la responsabilità dell'adeguatezza del testo, _nemmeno_ in merito alla sua legalità: è _la_persona_ che usa l'output che si prende la responsabilità di /decidere/ in merito alla sua adeguatezza, _anche_ legale, in funzione di come lo vuole utilizzare. ...certo, Microsoft e compagnia cantante dovrebbero scrivere 'sta cosa su **ogni** output (watermarking, quel che l'è)... ieri, non domani [...] > Violazioni particolarmente gravi perché il codice GPL viene poi > incluso in prodotti proprietari. se permetti, sono stracavolacci di quelli che copia-incollano l'output da CopyALot, non ho verificato ma scommetto un fiorino che è pure scritto chiaramente nelle condizioni di utilizzo del servizio [...] > Personalmente sarei felicissimo di scoprire che fare uno zip di > windows o office è sufficiente a far decadere i diritti di Microsoft a > su di esso. ovviamente no... ma meno male che nessuno ha mai pensato di accusare il software zip di violare il diritto d'autore per via di quello che "zippa" :-D [...] > Ma dentro un LLM non opera alcuna intelligenza, solo rappresentazioni > vettoriali di > testi attraversate lungo tracciati statisticamente probabili selezionati in > modo (pseudo) > casuale entro un errore accettabile... quale sarebbe la violazione del diritto d'autore, se non c'è plagio *e* chi usa quei testi per usarli in una elaborazione ha *pagato* "i libri"? [...] saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
signature.asc
Description: PGP signature
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa