Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Carlo Blengino Wed, 04 Dec 2024 15:41:32 -0800

Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di
chiarire la mia affermazione, forse un po' troppo secca,
sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle
considerazioni che precedono. Non mi riferivo infatti solo al problema
del diritto alla cancellazione.

Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare
servizi basati su RAG, ma se anche così fosse, e i dati non fossero
utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati
ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si
aprirebbero comunque infinite diatribe sulla corretta attribuzione dei
ruoli di titolare e responsabile tra i diversi soggetti. Risolto
faticosamente quello, il problema per cui un archivio pubblico come
l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un
fornitore per l'addestramento è vera, quale che sia la modalità di
acquisizione (che sia con lo scraping o con accordi).  Non ci sarà mai
infatti per fini commeriali/imprenditoriali una base  giuridica che
legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè
quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari
ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che
quella è l'unica possibilità di liceità del trattamento (il consenso
ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin
troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ.
Per salvare il trattamento dei motori di ricerca quali titolari del
trattamento sulla base del legittimo interesse si sono compiute capriole
interpretative notevoli là dove tale base è recessiva rispetto al divieto
di trattamento di dati particolari, ma lì era più facile e nessuno poteva
vietare Google Search.
Con gli LLM però non se ne esce, ed i tempi sono cambiati.
Eppure gli archivi sono una fonte credo fondamentale e viene usata a man
bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione.
E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più
consono alle privative legate alla proprietà intellettuale (altra normativa
in frizione) che non al tema della protezione dati. Nel GDPR non esiste
nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act,
ma è riferito ad altro); i dati personali, a maggior ragione se pubblici,
non sono di nessuno (il titolare è il titolare del trattamento, non dei
dati, e l'interessato non possiede i suoi dati, può pretenderne la
protezione, a determinate condizioni). E bene che sia così, perchè i dati,
rectius le informazioni, anche personali devono circolare santo cielo! Sono
la base della conoscenza, anche quella delle macchine spara stronzate
(frankfurtianamente)
Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un
disastro per tutti, ma non perchè violino chissà quale diritto fondamentale
dei cittadini o la protezione dei dati, ma perché generano delle privative
e delle barriere economiche distorsive basate sul nulla, almeno sotto il
profilo della data protection (a mio giudizio anche sotto il profilo della
proprietà intellettuale, ma li le privative esistono davvero!).

E di situazioni così, di incompatibilità, è piena la strada delle
tecnologie dell'informazione che necessitano della ruminazione di molte
informazioni.

Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è
incompatibile con il BigData (in allora il termine era una buzzword).
Minimizzazione, limitazione della conservazione, stretta finalità...tutta
roba contraria al valore informativo dei dati, ma per fortuna c'erano mille
eccezioni, varianti e deroghe e soprattutto quei principi si potevano
piegare, adattare e soprattutto i pochi che si occupavano di protezione
dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile
e recessivo, molto diverso dalla riservatezza (che quella sì se la passava
già davvero male).

Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che
i Salami non hanno alcun interesse per l'umanità, e che non meritano tutela
alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi
tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il
GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai
cattivi che la governano. I problemi sono altri e necessitano di risposte
diverse.

Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma
sono comunque sempre grato a tutti in questa lista per gli stimoli e le
riflessioni che mi suscitate.
CB

 ne fondi il trattamento

Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.gu...@gmail.com>
ha scritto:

> Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si
> possono cedere dati sensibili di cui si è responsabili, che i giornali
> pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono
> farne usi diversi senza il consenso degli interessati. Quindi la cessione
> sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere
> e smentire le notizie 'on the fly' come possono fare i giornali.
>
> Il problema è che i LLM acquisiscono competenze linguistiche generali (ad
> es. quelle che servono per fare summarization) e fattuali (chi è David
> Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti
> progressi, tutto è più o meno fuso in un sol blocco.
>
> Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented
> Generation (RAG). In questi casi, le competenze fattuali si trovano nei
> documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM
> spetta solo il compito di mettere in bella prosa alcuni passaggi
> informativi che non si trovano nel modello ma appunto in qualche testo
> leggibile e emendabile.
>
> La notizia è che per questo esercizio bastano modelli relativamente
> piccoli, anche 'aperti', e non è impensabile che questi possano essere
> costruiti con dati 'puliti'.
> Nota a margine: quello che GEDI dice di voler fare, da quello che capisco,
> è esattamente un RAG, come quello che altre testate (es. Washington Post)
> stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training
> sul loro archivio.
>
> G.
>
>
> On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <
> nexa@server-nexa.polito.it> wrote:
>
>> Ciao Carlo
>>
>> On 02/12/24 23:55, Carlo Blengino wrote:
>> > Grazie!
>> > Interessante leggere come da lontano vedano il GDPR e il diritto
>> > all'oblio (o quello che è).
>> > La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se
>> > interpretato restrittivamente non è compatibile con la tecnologia degli
>> > LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un
>>  > totale contrasto, su più principi di base. E questo è un problema per
>>  > l'Europa.
>>
>> non mi pare.
>> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4
>> re-training del modello all'anno.
>>
>> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici
>> rispetto alle dimensioni del proprio modello (e per il sistema, fare un
>> po' di ricerca su metodi di ottimizzazione)
>>
>> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/
>>
>> d'altronde, anche il consorzio obbligatorio degli olii usati è una
>> maggiorazione di costi per i meccanici...
>> :-)
>>
>>
>>
>> > Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-
>> > accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel-
>> > mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova
>> > (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia
>> > chiaro, ma per altre ragioni)
>> > Aggiungo a scanso di equivoci, che questa considerazione non vuol dire
>> a
>> > mio parere che vi sia incompatibilità tra queste tecnologie ed il
>> > sacrosanto diritto fondamentale alla protezione dei dati personali.
>> > CB
>> >
>> >
>> >
>> > Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani
>> > <daniela.taf...@unipi.it <mailto:daniela.taf...@unipi.it>> ha scritto:
>> >
>> >     Dec 01, 2024 - Georg Zoeller (AILTI)
>> >     The Curious Case of David Mayer, the man ChatGPT cannot name.
>> >
>> >     ChatGPT users have noticed a curious behavior: It refuses to talk
>> >     about a 'David Mayer'. We have the explanation and point out less
>> >     obvious implications.
>> >
>> >     TL;DR: While not a juicy conspiracy, OpenAI cut some corners on
>> >     regulatory compliance and the implications are less benign than they
>> >     seem. In fact, they can be weaponized with unexpected consequences.
>> >
>> >     ChatGPT is well known for not knowing when to stop talking - the
>> >     underlying transformer architecture lends itself to hallucinations
>> >     in situations when the model is asked to generate text beyond the
>> >     context it was trained on. Even more curious, sometimes it starts
>> >     giving a response, only to change its mind mid sentence, and
>> >     terminating the conversation.
>> >
>> >     So naturally, when the software stops and refuses to answer, users
>> >     take notice. In this case, ChatGPT users found that mention of the
>> >     name “David Mayer”, whenever included in a message, would
>> >     consistently cause the model to terminate the conversation.
>> >
>> >     It’s a conspiracy!
>> >     Creating even more mystery, chatGPT rejection messages quickly move
>> >     from unhelpful to ominously threatening when the user starts
>> >     investigating the phenomenon.
>> >
>> >     Continua qui:
>> >     <https://centreforaileadership.org/resources/
>> >     analysis_the_curious_case_of_one_david_mayer/ <https://
>> >     centreforaileadership.org/resources/
>> >     analysis_the_curious_case_of_one_david_mayer/>>
>> >
>> >
>> >
>> > --
>> > *
>> > *
>> > *Avv. Carlo Blengino*
>> > *
>> > *
>> > /Via Duchessa Jolanda n. 19,/
>> > /10138 Torino (TO) - Italy/
>> > /tel. +39 011 4474035/
>> > Penalistiassociati.it
>> > //
>>
>> --
>> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
>>
>>

-- 
*Avv. Carlo Blengino*
*Via Duchessa Jolanda n. 19,*
*10138 Torino (TO) - Italy*
*tel. +39 011 4474035*
Penalistiassociati.it

Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Reply via email to