Re: [nexa] R: R: ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

mauro gorrino Sun, 01 Oct 2023 02:24:13 -0700

La newsletter "Guerre di Rete" m. 169 del 1 ottobre porta un interessante
contributo a questa discussione, sia illustrando come Meta abbia acquisito
i tesi di molti libri coperti da copyright e sia indicando uno strumento
per verificare se un certo testo sia stato utilizzato per l'addestramento
di LLaMa.  Qui di seguito trovate la parte della newlsetter che tratta
questo problema.

Questo è link per sottoscrivere "Guerre di Rete"

https://substack.com/redirect/2/eyJlIjoiaHR0cHM6Ly9ndWVycmVkaXJldGUuc3Vic3RhY2suY29tL2FjY291bnQiLCJwIjoxMzc1MDYyODEsInMiOjEyNTEwLCJmIjp0cnVlLCJ1IjoxNDM1MzgyOCwiaWF0IjoxNjk2MTQ1MDc1LCJleHAiOjE2OTg3MzcwNzUsImlzcyI6InB1Yi0wIiwic3ViIjoibGluay1yZWRpcmVjdCJ9.G75yZHYgjn0O7V3DvlYc_Dq7x5g28j4-Z_1kBVbUjxM?

###########################

Guerre di Rete - una newsletter di notizie cyber
a cura di Carola Frediani
N.169 - 1 ottobre 2023

AI
La politica dei dataset alla base degli strumenti di intelligenza
artificiale

La rivista The Atlantic ha messo a disposizione uno strumento (di cui dirò
di più a breve) per cercare quali libri e autori facciano parte di un
corpus di testi usati per addestrare diversi sistemi di intelligenza
artificiale generativa, in particolare LLaMa, una serie di modelli
linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a
GPT di OpenAI (che sta alla base del chatbot ChatGPT).

Per capire come la rivista sia riuscita a farlo bisogna fare un passo
indietro. Si hanno pochi dettagli sui testi usati per addestrare questi
modelli, e questo vale in primis per OpenAI ma anche per altri.

Archeologia dei dataset di Llama

Sappiamo (dallo stesso primo paper su LLaMa) che Meta ha usato, fra gli
altri materiali, due raccolte di libri, il Gutenberg Project, che contiene
opere nel pubblico dominio, e la sezione Books3 di un dataset pubblicamente
accessibile noto come ThePile (uno zibaldone di libri, sottotitoli di video
di YouTube, trascrizioni del Parlamento Ue, email degli impiegati Enron
prima del suo fallimento, e altre simili memorabilia), compilato dal gruppo
di ricerca di EleutherAI (che si presenta come la versione open source di
OpenAI), e usato per addestrare modelli linguistici di grandi dimensioni.
Nel paper Meta scrive: “dimostriamo che è possibile addestrare modelli
all'avanguardia utilizzando esclusivamente set di dati disponibili
pubblicamente, senza ricorrere a set di dati proprietari e inaccessibili”.

Cosa c’è dentro Books3

Bene, ma che libri conteneva esattamente Books3? È quello che si è chiesto
il giornalista di The Atlantic, che ha prima recuperato ThePile, e poi,
come in una serie di scatole cinesi, ha isolato ed estratto Books3, e
infine ha usato i codici ISBN per individuare i libri. Insomma, un
capolavoro.
Così facendo è riuscito a identificare più di 170mila titoli, dopodiché li
ha esaminati. La maggior parte, scrive, sono opere “piratate”, cioè coperte
da diritto d’autore e aggiunte senza consenso, perlopiù pubblicate negli
ultimi 20 anni. Un terzo sono di narrativa, due terzi di saggistica. Ci
sono grandi e piccoli editori. Tra gli autori ci sono Elena Ferrante e
Rachel Cusk, Haruki Murakami, Jonathan Franzen, Margaret Atwood. Ma anche
102 romanzi di L. Ron Hubbard (il fondatore di Scientology), 90 libri del
pastore creazionista John F. MacArthur, opere di pseudo-storia del tipo gli
alieni hanno costruito le piramidi ecc.

Uno strumento per cercare dentro Books3

The Atlantic ha poi messo a disposizione uno strumento per permettere a
chiunque di fare ricerche in questa raccolta. Ho trovato, oltre alla già
citata Ferrante, Altai di Wu Ming, ovviamente molto Umberto Eco, Roberto
Saviano, Melania Mazzucco, Antonio Scurati, Domenico Starnone, Nicola
Lagioia, e questo solo per citare un po’ di nomi che ho volutamente cercato.

Rifacciamo un altro passo indietro. Si dice che i contenuti per l’AI siano
raccolti (scraped) da internet e da siti pubblicamente accessibili. Nel
caso di Books3 i libri sono in realtà stati scaricati da un server
bittorrent, scriveva mesi fa l’accademico Peter Schoppert.
Ma Books3, almeno nell’intento del suo creatore, nasce per sostenere la
ricerca AI open source in contrapposizione alla chiusura e segretezza di
OpenAI e al suo monopolio. Così ha spiegato allo stesso The Atlantic lo
sviluppatore Shawn Presser che ha assemblato la raccolta di libri.

Open source AI contro OpenAI

Dunque Books3 sarebbe stato creato per fornire agli sviluppatori
indipendenti "dati di addestramento di livello OpenAI". E il suo stesso
nome sarebbe un riferimento a un documento pubblicato da OpenAI nel 2020
che menzionava due "corpora di libri basati su Internet" chiamati Books1 e
Books2.  “Questo documento - scrive The Atlantic -  è l'unica fonte
primaria che fornisce indizi sul contenuto dei dati di addestramento di
GPT(...)”.

Si procede quindi a tentoni. Dalle informazioni raccolte dalla comunità di
sviluppatori però si ipotizza che Books1 sia la produzione completa di
Project Gutenberg (...). Mentre nessuno sa cosa ci sia dentro Books2.
“Alcuni sospettano che provenga da raccolte di libri piratati, come Library
Genesis, Z-Library e Bibliotik, che circolano attraverso la rete di
file-sharing BitTorrent (Books3, come ha annunciato Presser dopo averlo
creato, sarebbe "tutto Bibliotik")”.

Ma si possono usare questi libri?

Arrivati qua si aprirebbe il capitolo di tipo legale, ovvero è possibile o
meno usare questi contenuti per addestrare AI? C’è chi sostiene che sia
possibile sulla base della dottrina del fair use (e soprattutto sulla base
dell’idea che gli strumenti di intelligenza artificiale generativa non
replichino i libri su cui sono stati addestrati, ma producano nuove opere,
e che non danneggino il mercato degli originali).

E c’è chi non è d’accordo, come quegli scrittori, da Michael Chabon ad
altri, che hanno avviato una class action contro Meta proprio per questo,
perché i loro libri sono inclusi in Books3, poi usato per addestrare LLaMa.

Non entro nel merito di questa discussione ora, ma lo stesso Alex Reisner
(autore di questo bellissimo lavoro giornalistico su The Atlantic), che è
sia un autore che un programmatore del mondo open source, coglie le
complesse linee di frattura culturale dell’intera questione (open source
contro Big Tech e in mezzo gli studiosi, gli scrittori, i creativi) che
rimescolano un po’ le carte rispetto al passato. Lui stesso ha una
posizione critica verso l’uso indiscriminato e non consensuale di questi
testi.

Comunque la si veda, e qualunque cosa verrà stabilita nei tribunali, sapere
cosa c’è nei dataset è ora più che mai fondamentale. Ed è una questione
assolutamente politica.

###########################

Aggiungo i link presenti nel testo e andati perso nel copia / incolla dalla
newsletter

https://aicopyright.substack.com/p/has-your-book-been-used-to-train

https://www.theatlantic.com/technology/archive/2023/09/books3-database-generative-ai-training-copyright-infringement/675363/

https://aicopyright.substack.com/p/has-your-book-been-used-to-train

https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/

Il giorno dom 1 ott 2023 alle ore 11:06 380° <g...@biscuolo.net> ha scritto:

> Buongiorno Lorenzo,
>
> "Lorenzo Albertini" <lorenzoalbertini...@gmail.com> writes:
>
> > §§ 54-64 della citazione in giudizio (facilmente reperibile , ad
> > es. qui
> > <
> https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiDh_vygtCBAxX4SPEDHZlhAxMQFnoECBYQAQ&url=https%3A%2F%2Fwww.classaction.org%2Fmedia%2Fauthors-guild-et-al-v-openai-inc-et-al.pdf&usg=AOvVaw1tUMb6Gk10kZCsvoAo0PH6&opi=89978449
> >
> > ):
>
> scusi ma non ho capito cosa intende aggiungere alla discussione con
> questi riferimenti estratti dalla citazione sopra indicata: potrebbe
> espandere il suo commento per favore?
>
> [...]
>
> piccola digressione quasi OT:
>
> > Le informazioni contenute nella presente comunicazione e nei documenti
> > ad essa allegati potrebbero essere tutelate dal segreto professionale
> > e sono comunque confidenziali e ad uso esclusivo del destinatario
> > sopra indicato. Qualora la presente comunicazione non fosse destinata
> > a Voi, Vi preghiamo di tener presente che la divulgazione,
> > distribuzione o riproduzione di qualunque informazione contenuta nella
> > presente comunicazione o nei documenti ad essa allegati sono
> > vietate. Se avete ricevuto la presente comunicazione per errore, Vi
> > preghiamo di volerci avvertire immediatamente e di distruggere quanto
> > ricevuto senza leggerlo. Grazie per la collaborazione.
>
> Mi scusi se faccio notare questa cosa prendendo il suo "disclaimer" come
> esempio, ne ho visti a quintalate e le assicuro che ovviamente non c'è
> nulla di personale...
>
> ...però questo tipo di "disclaimer" a mio modesto avviso (IANAL)
> evidenziano in modo plastico quanta confusione c'è in merito alla
> riservatezza e la _riproduzione_ delle informazioni contenute nelle
> comunicazioni.
>
> Domanda scema: il fatto che in una lista pubblica io e lei utilizziamo -
> in modi assai diversi - larghe parti dei messaggi che riceviamo nelle
> nostre risposte è fair use o è vietato?  :-D
>
> ...o forse il disclaimer è rivolto alla NSA?
>
> [...]
>
> Cordiali saluti, 380°
>
> --
> 380° (Giovanni Biscuolo public alter ego)
>
> «Noi, incompetenti come siamo,
>  non abbiamo alcun titolo per suggerire alcunché»
>
> Disinformation flourishes because many people care deeply about injustice
> but very few check the facts.  Ask me about <https://stallmansupport.org>.
> _______________________________________________
> nexa mailing list
> nexa@server-nexa.polito.it
> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
>

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] R: R: ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Reply via email to