La newsletter "Guerre di Rete" m. 169 del 1 ottobre porta un interessante contributo a questa discussione, sia illustrando come Meta abbia acquisito i tesi di molti libri coperti da copyright e sia indicando uno strumento per verificare se un certo testo sia stato utilizzato per l'addestramento di LLaMa. Qui di seguito trovate la parte della newlsetter che tratta questo problema.
Questo è link per sottoscrivere "Guerre di Rete" https://substack.com/redirect/2/eyJlIjoiaHR0cHM6Ly9ndWVycmVkaXJldGUuc3Vic3RhY2suY29tL2FjY291bnQiLCJwIjoxMzc1MDYyODEsInMiOjEyNTEwLCJmIjp0cnVlLCJ1IjoxNDM1MzgyOCwiaWF0IjoxNjk2MTQ1MDc1LCJleHAiOjE2OTg3MzcwNzUsImlzcyI6InB1Yi0wIiwic3ViIjoibGluay1yZWRpcmVjdCJ9.G75yZHYgjn0O7V3DvlYc_Dq7x5g28j4-Z_1kBVbUjxM? ########################### Guerre di Rete - una newsletter di notizie cyber a cura di Carola Frediani N.169 - 1 ottobre 2023 AI La politica dei dataset alla base degli strumenti di intelligenza artificiale La rivista The Atlantic ha messo a disposizione uno strumento (di cui dirò di più a breve) per cercare quali libri e autori facciano parte di un corpus di testi usati per addestrare diversi sistemi di intelligenza artificiale generativa, in particolare LLaMa, una serie di modelli linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a GPT di OpenAI (che sta alla base del chatbot ChatGPT). Per capire come la rivista sia riuscita a farlo bisogna fare un passo indietro. Si hanno pochi dettagli sui testi usati per addestrare questi modelli, e questo vale in primis per OpenAI ma anche per altri. Archeologia dei dataset di Llama Sappiamo (dallo stesso primo paper su LLaMa) che Meta ha usato, fra gli altri materiali, due raccolte di libri, il Gutenberg Project, che contiene opere nel pubblico dominio, e la sezione Books3 di un dataset pubblicamente accessibile noto come ThePile (uno zibaldone di libri, sottotitoli di video di YouTube, trascrizioni del Parlamento Ue, email degli impiegati Enron prima del suo fallimento, e altre simili memorabilia), compilato dal gruppo di ricerca di EleutherAI (che si presenta come la versione open source di OpenAI), e usato per addestrare modelli linguistici di grandi dimensioni. Nel paper Meta scrive: “dimostriamo che è possibile addestrare modelli all'avanguardia utilizzando esclusivamente set di dati disponibili pubblicamente, senza ricorrere a set di dati proprietari e inaccessibili”. Cosa c’è dentro Books3 Bene, ma che libri conteneva esattamente Books3? È quello che si è chiesto il giornalista di The Atlantic, che ha prima recuperato ThePile, e poi, come in una serie di scatole cinesi, ha isolato ed estratto Books3, e infine ha usato i codici ISBN per individuare i libri. Insomma, un capolavoro. Così facendo è riuscito a identificare più di 170mila titoli, dopodiché li ha esaminati. La maggior parte, scrive, sono opere “piratate”, cioè coperte da diritto d’autore e aggiunte senza consenso, perlopiù pubblicate negli ultimi 20 anni. Un terzo sono di narrativa, due terzi di saggistica. Ci sono grandi e piccoli editori. Tra gli autori ci sono Elena Ferrante e Rachel Cusk, Haruki Murakami, Jonathan Franzen, Margaret Atwood. Ma anche 102 romanzi di L. Ron Hubbard (il fondatore di Scientology), 90 libri del pastore creazionista John F. MacArthur, opere di pseudo-storia del tipo gli alieni hanno costruito le piramidi ecc. Uno strumento per cercare dentro Books3 The Atlantic ha poi messo a disposizione uno strumento per permettere a chiunque di fare ricerche in questa raccolta. Ho trovato, oltre alla già citata Ferrante, Altai di Wu Ming, ovviamente molto Umberto Eco, Roberto Saviano, Melania Mazzucco, Antonio Scurati, Domenico Starnone, Nicola Lagioia, e questo solo per citare un po’ di nomi che ho volutamente cercato. Rifacciamo un altro passo indietro. Si dice che i contenuti per l’AI siano raccolti (scraped) da internet e da siti pubblicamente accessibili. Nel caso di Books3 i libri sono in realtà stati scaricati da un server bittorrent, scriveva mesi fa l’accademico Peter Schoppert. Ma Books3, almeno nell’intento del suo creatore, nasce per sostenere la ricerca AI open source in contrapposizione alla chiusura e segretezza di OpenAI e al suo monopolio. Così ha spiegato allo stesso The Atlantic lo sviluppatore Shawn Presser che ha assemblato la raccolta di libri. Open source AI contro OpenAI Dunque Books3 sarebbe stato creato per fornire agli sviluppatori indipendenti "dati di addestramento di livello OpenAI". E il suo stesso nome sarebbe un riferimento a un documento pubblicato da OpenAI nel 2020 che menzionava due "corpora di libri basati su Internet" chiamati Books1 e Books2. “Questo documento - scrive The Atlantic - è l'unica fonte primaria che fornisce indizi sul contenuto dei dati di addestramento di GPT(...)”. Si procede quindi a tentoni. Dalle informazioni raccolte dalla comunità di sviluppatori però si ipotizza che Books1 sia la produzione completa di Project Gutenberg (...). Mentre nessuno sa cosa ci sia dentro Books2. “Alcuni sospettano che provenga da raccolte di libri piratati, come Library Genesis, Z-Library e Bibliotik, che circolano attraverso la rete di file-sharing BitTorrent (Books3, come ha annunciato Presser dopo averlo creato, sarebbe "tutto Bibliotik")”. Ma si possono usare questi libri? Arrivati qua si aprirebbe il capitolo di tipo legale, ovvero è possibile o meno usare questi contenuti per addestrare AI? C’è chi sostiene che sia possibile sulla base della dottrina del fair use (e soprattutto sulla base dell’idea che gli strumenti di intelligenza artificiale generativa non replichino i libri su cui sono stati addestrati, ma producano nuove opere, e che non danneggino il mercato degli originali). E c’è chi non è d’accordo, come quegli scrittori, da Michael Chabon ad altri, che hanno avviato una class action contro Meta proprio per questo, perché i loro libri sono inclusi in Books3, poi usato per addestrare LLaMa. Non entro nel merito di questa discussione ora, ma lo stesso Alex Reisner (autore di questo bellissimo lavoro giornalistico su The Atlantic), che è sia un autore che un programmatore del mondo open source, coglie le complesse linee di frattura culturale dell’intera questione (open source contro Big Tech e in mezzo gli studiosi, gli scrittori, i creativi) che rimescolano un po’ le carte rispetto al passato. Lui stesso ha una posizione critica verso l’uso indiscriminato e non consensuale di questi testi. Comunque la si veda, e qualunque cosa verrà stabilita nei tribunali, sapere cosa c’è nei dataset è ora più che mai fondamentale. Ed è una questione assolutamente politica. ########################### Aggiungo i link presenti nel testo e andati perso nel copia / incolla dalla newsletter https://aicopyright.substack.com/p/has-your-book-been-used-to-train https://www.theatlantic.com/technology/archive/2023/09/books3-database-generative-ai-training-copyright-infringement/675363/ https://aicopyright.substack.com/p/has-your-book-been-used-to-train https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/ Il giorno dom 1 ott 2023 alle ore 11:06 380° <g...@biscuolo.net> ha scritto: > Buongiorno Lorenzo, > > "Lorenzo Albertini" <lorenzoalbertini...@gmail.com> writes: > > > §§ 54-64 della citazione in giudizio (facilmente reperibile , ad > > es. qui > > < > https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwiDh_vygtCBAxX4SPEDHZlhAxMQFnoECBYQAQ&url=https%3A%2F%2Fwww.classaction.org%2Fmedia%2Fauthors-guild-et-al-v-openai-inc-et-al.pdf&usg=AOvVaw1tUMb6Gk10kZCsvoAo0PH6&opi=89978449 > > > > ): > > scusi ma non ho capito cosa intende aggiungere alla discussione con > questi riferimenti estratti dalla citazione sopra indicata: potrebbe > espandere il suo commento per favore? > > [...] > > piccola digressione quasi OT: > > > Le informazioni contenute nella presente comunicazione e nei documenti > > ad essa allegati potrebbero essere tutelate dal segreto professionale > > e sono comunque confidenziali e ad uso esclusivo del destinatario > > sopra indicato. Qualora la presente comunicazione non fosse destinata > > a Voi, Vi preghiamo di tener presente che la divulgazione, > > distribuzione o riproduzione di qualunque informazione contenuta nella > > presente comunicazione o nei documenti ad essa allegati sono > > vietate. Se avete ricevuto la presente comunicazione per errore, Vi > > preghiamo di volerci avvertire immediatamente e di distruggere quanto > > ricevuto senza leggerlo. Grazie per la collaborazione. > > Mi scusi se faccio notare questa cosa prendendo il suo "disclaimer" come > esempio, ne ho visti a quintalate e le assicuro che ovviamente non c'è > nulla di personale... > > ...però questo tipo di "disclaimer" a mio modesto avviso (IANAL) > evidenziano in modo plastico quanta confusione c'è in merito alla > riservatezza e la _riproduzione_ delle informazioni contenute nelle > comunicazioni. > > Domanda scema: il fatto che in una lista pubblica io e lei utilizziamo - > in modi assai diversi - larghe parti dei messaggi che riceviamo nelle > nostre risposte è fair use o è vietato? :-D > > ...o forse il disclaimer è rivolto alla NSA? > > [...] > > Cordiali saluti, 380° > > -- > 380° (Giovanni Biscuolo public alter ego) > > «Noi, incompetenti come siamo, > non abbiamo alcun titolo per suggerire alcunché» > > Disinformation flourishes because many people care deeply about injustice > but very few check the facts. Ask me about <https://stallmansupport.org>. > _______________________________________________ > nexa mailing list > nexa@server-nexa.polito.it > https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa >
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa