Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire la mia affermazione, forse un po' troppo secca, sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. Non mi riferivo infatti solo al problema del diritto alla cancellazione.
Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque infinite diatribe sulla corretta attribuzione dei ruoli di titolare e responsabile tra i diversi soggetti. Risolto faticosamente quello, il problema per cui un archivio pubblico come l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, quale che sia la modalità di acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una base giuridica che legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che quella è l'unica possibilità di liceità del trattamento (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari del trattamento sulla base del legittimo interesse si sono compiute capriole interpretative notevoli là dove tale base è recessiva rispetto al divieto di trattamento di dati particolari, ma lì era più facile e nessuno poteva vietare Google Search. Con gli LLM però non se ne esce, ed i tempi sono cambiati. Eppure gli archivi sono una fonte credo fondamentale e viene usata a man bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più consono alle privative legate alla proprietà intellettuale (altra normativa in frizione) che non al tema della protezione dati. Nel GDPR non esiste nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e l'interessato non possiede i suoi dati, può pretenderne la protezione, a determinate condizioni). E bene che sia così, perchè i dati, rectius le informazioni, anche personali devono circolare santo cielo! Sono la base della conoscenza, anche quella delle macchine spara stronzate (frankfurtianamente) Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro per tutti, ma non perchè violino chissà quale diritto fondamentale dei cittadini o la protezione dei dati, ma perché generano delle privative e delle barriere economiche distorsive basate sul nulla, almeno sotto il profilo della data protection (a mio giudizio anche sotto il profilo della proprietà intellettuale, ma li le privative esistono davvero!). E di situazioni così, di incompatibilità, è piena la strada delle tecnologie dell'informazione che necessitano della ruminazione di molte informazioni. Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è incompatibile con il BigData (in allora il termine era una buzzword). Minimizzazione, limitazione della conservazione, stretta finalità...tutta roba contraria al valore informativo dei dati, ma per fortuna c'erano mille eccezioni, varianti e deroghe e soprattutto quei principi si potevano piegare, adattare e soprattutto i pochi che si occupavano di protezione dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e recessivo, molto diverso dalla riservatezza (che quella sì se la passava già davvero male). Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la governano. I problemi sono altri e necessitano di risposte diverse. Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma sono comunque sempre grato a tutti in questa lista per gli stimoli e le riflessioni che mi suscitate. CB ne fondi il trattamento Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.gu...@gmail.com> ha scritto: > Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si > possono cedere dati sensibili di cui si è responsabili, che i giornali > pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono > farne usi diversi senza il consenso degli interessati. Quindi la cessione > sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere > e smentire le notizie 'on the fly' come possono fare i giornali. > > Il problema è che i LLM acquisiscono competenze linguistiche generali (ad > es. quelle che servono per fare summarization) e fattuali (chi è David > Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti > progressi, tutto è più o meno fuso in un sol blocco. > > Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented > Generation (RAG). In questi casi, le competenze fattuali si trovano nei > documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM > spetta solo il compito di mettere in bella prosa alcuni passaggi > informativi che non si trovano nel modello ma appunto in qualche testo > leggibile e emendabile. > > La notizia è che per questo esercizio bastano modelli relativamente > piccoli, anche 'aperti', e non è impensabile che questi possano essere > costruiti con dati 'puliti'. > Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, > è esattamente un RAG, come quello che altre testate (es. Washington Post) > stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training > sul loro archivio. > > G. > > > On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < > nexa@server-nexa.polito.it> wrote: > >> Ciao Carlo >> >> On 02/12/24 23:55, Carlo Blengino wrote: >> > Grazie! >> > Interessante leggere come da lontano vedano il GDPR e il diritto >> > all'oblio (o quello che è). >> > La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se >> > interpretato restrittivamente non è compatibile con la tecnologia degli >> > LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un >> > totale contrasto, su più principi di base. E questo è un problema per >> > l'Europa. >> >> non mi pare. >> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 >> re-training del modello all'anno. >> >> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici >> rispetto alle dimensioni del proprio modello (e per il sistema, fare un >> po' di ricerca su metodi di ottimizzazione) >> >> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/ >> >> d'altronde, anche il consorzio obbligatorio degli olii usati è una >> maggiorazione di costi per i meccanici... >> :-) >> >> >> >> > Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- >> > accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- >> > mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova >> > (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia >> > chiaro, ma per altre ragioni) >> > Aggiungo a scanso di equivoci, che questa considerazione non vuol dire >> a >> > mio parere che vi sia incompatibilità tra queste tecnologie ed il >> > sacrosanto diritto fondamentale alla protezione dei dati personali. >> > CB >> > >> > >> > >> > Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani >> > <daniela.taf...@unipi.it <mailto:daniela.taf...@unipi.it>> ha scritto: >> > >> > Dec 01, 2024 - Georg Zoeller (AILTI) >> > The Curious Case of David Mayer, the man ChatGPT cannot name. >> > >> > ChatGPT users have noticed a curious behavior: It refuses to talk >> > about a 'David Mayer'. We have the explanation and point out less >> > obvious implications. >> > >> > TL;DR: While not a juicy conspiracy, OpenAI cut some corners on >> > regulatory compliance and the implications are less benign than they >> > seem. In fact, they can be weaponized with unexpected consequences. >> > >> > ChatGPT is well known for not knowing when to stop talking - the >> > underlying transformer architecture lends itself to hallucinations >> > in situations when the model is asked to generate text beyond the >> > context it was trained on. Even more curious, sometimes it starts >> > giving a response, only to change its mind mid sentence, and >> > terminating the conversation. >> > >> > So naturally, when the software stops and refuses to answer, users >> > take notice. In this case, ChatGPT users found that mention of the >> > name “David Mayer”, whenever included in a message, would >> > consistently cause the model to terminate the conversation. >> > >> > It’s a conspiracy! >> > Creating even more mystery, chatGPT rejection messages quickly move >> > from unhelpful to ominously threatening when the user starts >> > investigating the phenomenon. >> > >> > Continua qui: >> > <https://centreforaileadership.org/resources/ >> > analysis_the_curious_case_of_one_david_mayer/ <https:// >> > centreforaileadership.org/resources/ >> > analysis_the_curious_case_of_one_david_mayer/>> >> > >> > >> > >> > -- >> > * >> > * >> > *Avv. Carlo Blengino* >> > * >> > * >> > /Via Duchessa Jolanda n. 19,/ >> > /10138 Torino (TO) - Italy/ >> > /tel. +39 011 4474035/ >> > Penalistiassociati.it >> > // >> >> -- >> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram) >> >> -- *Avv. Carlo Blengino* *Via Duchessa Jolanda n. 19,* *10138 Torino (TO) - Italy* *tel. +39 011 4474035* Penalistiassociati.it