Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Carlo Blengino Fri, 06 Dec 2024 09:57:47 -0800

Solo a precisazione, a scanso di equivoci e imprecisioni: per finalità di
ricerca il trattamento di dati personali anche "particolari" è ammesso ed
anzi inventivato, con le dovute cautele. Tutto il GDPR e diverse normative
UE spingono per l'apertura dei dati per la ricerca. Poi certo, nella
complessità della catena del valore dei sistemi IA è tutto molto
complesso...


Il ven 6 dic 2024, 17:39 Stefano Borroni Barale <s.bar...@erentil.net> ha
scritto:

> Gentile Carlo,
>
> anzitutto mille grazie per aver chiarito il punto legale. Da turista del
> diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio
> prezioso a tutte coloro che amano arricchirsi con le conoscenze che
> provengono da campi che non sono il proprio.
> A me piacciono le tecnologie, poi nello scrivere di queste cose ho
> sviluppato una (malsana?) ammirazione per il lavoro dei cibernetici, che
> sono i "colpevoli", a mio modo di vedere, dell'approccio sub-simbolico
> all'Ai. Quindi provo a rispondere a questo specifico punto:
>
> *Possiamo decidere che quelle macchine e quelle tecnologie sono un male,
> che i Salami non hanno alcun interesse per l'umanità, e che non meritano
> tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi
> tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il
> GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai
> cattivi che la governano. I problemi sono altri e necessitano di risposte
> diverse.*
>
> Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema
> non è tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM
> crea quella che Lewis Mumford avrebbe definito "Authoritarian Technics".
> Non è l'unico "modo di esistenza" possibile.
>
> Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non
> mi manderebbe in brodo di giuggiole, è l'approccio "democratico": la
> creazione di modelli generalisti diviene monopolio pubblico, in quanto
> -sotto stretto scrutinio della società con modi chiari e codificati
> legalmente tra cui trasparenza e accountability- solo lo stato è
> autorizzato a questo trattamento altamente pericoloso del dato *in deroga*
> al GDPR ai soli fini di ricerca.
> A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI:
> quella di modificare il "comportamento" di un *blob proprietario che tale
> sempre resterà per via del suo modo di esistenza *inteso, sul piano
> tecnico, come "modo con cui sono reperiti e utilizzati i dati che ne
> inducono la programmazione statistica". Mi pare che sia l'idea che Morozov
> attribuisce ai "realisti" dell'Ai (cfr. articolo sul Boston Review passato
> in lista).
>
> Secondo me sarebbe una pessima idea dal punto di vista del software
> libero, della concentrazione del potere, dell'innovazione e del creare
> un'eccezione a un diritto che dovrebbe essere umano fondamentale (quello al
> controllo dei propri dati), soprattutto alla luce dell'uso che l'accademia
> fa del potere e visto quanto ormai sia prona agli appetiti dell'industria,
> ma _ottima_ dal punto di vista del principio democratico dei "poteri e
> contropoteri". A patto di chiamare le cose col loro nome: a quel punto
> avremmo un *blob proprietario scaricabile ed eseguibile gratuitamente
> fornito dal monopolio pubblico a fini di ricerca e sviluppo. *Sempre un
> notevole passo avanti rispetto alla situazione attuale di appropriazione
> indebita dei commons e dei dati privati da parte di (cinque/sei) privati
> senza alcun contraddittorio politico o conflitto sociale.
>
> Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto
> se è un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman
> (entrambi evidenti casi clinici, del primo sappiamo bene anche i motivi,
> vista la biografia).
>
> Altra possibilità: provare a costruire dei LLM con dati interamente liberi
> e trasparenti per vedere se davvero sono tanto meno performanti del *blob
> proprietario. *In pratica partiremmo dal principio della libertà e del
> rispetto del diritto umano alla protezione dei dati personali e vedremmo
> cosa si può fare all'interno di quel contesto (guard-rail a priori invece
> che a posteriori). Lo so che questa idea pone sfide tecniche notevoli e non
> necessariamente destinate al successo ma... dove sta scritto che dev'essere
> semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i
> diritti dei lavoratori).
>
> Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione
> tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole),
> sviluppando tecnologie che per funzionare non necessitino di masse così
> ingenti di dati così "sensibili" (perdonate il termine desueto/sbagliato),
> magari perché includono al loro interno un modello di mondo e affiancano
> all'approccio sub-simbolico un approccio simbolico.
>
> E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per
> esempio, ma sono certo che in lista qualcuno sa fare altri esempi ancora
> più interessanti. Ovviamente tali ricerche dovrebbero essere condotte con
> il metodo scientifico (piena condivisione dei risultati, non mi dite "open"
> perché se no mi arrabbio: "alla maniera di Galilei" è più che sufficiente)
> cosa che al momento non mi pare essere la policy di Meta, Microsoft o
> tantomeno "Open" Ai.
>
> Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare
> del tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo.
> Attualmente i modelli generalisti tipo Llama su cui fare "fine tuning" mi
> sembrano l'equivalente di quello che era il Kernel Unix per Stallman e il
> primo nucleo del progetto GNU, salvo per il fatto che non è detto sia
> possibile ottenere un Kernel interamente libero basato su questa
> tecnologia.
>
> Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere.
>
> Stefano
>
>
>
> Inviato con l'email sicura Proton Mail <https://proton.me/mail/home>.
>
> giovedì 5 dicembre 2024 00:41, Carlo Blengino <
> bleng...@penalistiassociati.it> ha scritto:
>
> Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di
> chiarire la mia affermazione, forse un po' troppo secca,
> sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle
> considerazioni che precedono. Non mi riferivo infatti solo al problema del
> diritto alla cancellazione.
>
> Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare
> servizi basati su RAG, ma se anche così fosse, e i dati non fossero
> utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati
> ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si
> aprirebbero comunque infinite diatribe sulla corretta attribuzione dei
> ruoli di titolare e responsabile tra i diversi soggetti. Risolto
> faticosamente quello, il problema per cui un archivio pubblico come
> l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un
> fornitore per l'addestramento è vera, quale che sia la modalità di
> acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai
> infatti per fini commeriali/imprenditoriali una base giuridica che
> legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè
> quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari
> ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che
> quella è l'unica possibilità di liceità del trattamento (il consenso
> ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin
> troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ.
> Per salvare il trattamento dei motori di ricerca quali titolari del
> trattamento sulla base del legittimo interesse si sono compiute capriole
> interpretative notevoli là dove tale base è recessiva rispetto al divieto
> di trattamento di dati particolari, ma lì era più facile e nessuno poteva
> vietare Google Search.
> Con gli LLM però non se ne esce, ed i tempi sono cambiati.
> Eppure gli archivi sono una fonte credo fondamentale e viene usata a man
> bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione.
> E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più
> consono alle privative legate alla proprietà intellettuale (altra normativa
> in frizione) che non al tema della protezione dati. Nel GDPR non esiste
> nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act,
> ma è riferito ad altro); i dati personali, a maggior ragione se pubblici,
> non sono di nessuno (il titolare è il titolare del trattamento, non dei
> dati, e l'interessato non possiede i suoi dati, può pretenderne la
> protezione, a determinate condizioni). E bene che sia così, perchè i dati,
> rectius le informazioni, anche personali devono circolare santo cielo! Sono
> la base della conoscenza, anche quella delle macchine spara stronzate
> (frankfurtianamente)
> Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un
> disastro per tutti, ma non perchè violino chissà quale diritto fondamentale
> dei cittadini o la protezione dei dati, ma perché generano delle privative
> e delle barriere economiche distorsive basate sul nulla, almeno sotto il
> profilo della data protection (a mio giudizio anche sotto il profilo della
> proprietà intellettuale, ma li le privative esistono davvero!).
>
> E di situazioni così, di incompatibilità, è piena la strada delle
> tecnologie dell'informazione che necessitano della ruminazione di molte
> informazioni.
>
> Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è
> incompatibile con il BigData (in allora il termine era una buzzword).
> Minimizzazione, limitazione della conservazione, stretta finalità...tutta
> roba contraria al valore informativo dei dati, ma per fortuna c'erano mille
> eccezioni, varianti e deroghe e soprattutto quei principi si potevano
> piegare, adattare e soprattutto i pochi che si occupavano di protezione
> dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile
> e recessivo, molto diverso dalla riservatezza (che quella sì se la passava
> già davvero male).
>
> Possiamo decidere che quelle macchine e quelle tecnologie sono un male,
> che i Salami non hanno alcun interesse per l'umanità, e che non meritano
> tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi
> tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il
> GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai
> cattivi che la governano. I problemi sono altri e necessitano di risposte
> diverse.
>
> Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma
> sono comunque sempre grato a tutti in questa lista per gli stimoli e le
> riflessioni che mi suscitate.
> CB
>
> ne fondi il trattamento
>
>
> Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <
> vetere.gu...@gmail.com> ha scritto:
>
>> Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si
>> possono cedere dati sensibili di cui si è responsabili, che i giornali
>> pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono
>> farne usi diversi senza il consenso degli interessati. Quindi la cessione
>> sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere
>> e smentire le notizie 'on the fly' come possono fare i giornali.
>>
>> Il problema è che i LLM acquisiscono competenze linguistiche generali (ad
>> es. quelle che servono per fare summarization) e fattuali (chi è David
>> Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti
>> progressi, tutto è più o meno fuso in un sol blocco.
>>
>> Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented
>> Generation (RAG). In questi casi, le competenze fattuali si trovano nei
>> documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM
>> spetta solo il compito di mettere in bella prosa alcuni passaggi
>> informativi che non si trovano nel modello ma appunto in qualche testo
>> leggibile e emendabile.
>>
>> La notizia è che per questo esercizio bastano modelli relativamente
>> piccoli, anche 'aperti', e non è impensabile che questi possano essere
>> costruiti con dati 'puliti'.
>> Nota a margine: quello che GEDI dice di voler fare, da quello che
>> capisco, è esattamente un RAG, come quello che altre testate (es.
>> Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI
>> faccia training sul loro archivio.
>>
>> G.
>>
>>
>> On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <
>> nexa@server-nexa.polito.it> wrote:
>>
>>> Ciao Carlo
>>>
>>> On 02/12/24 23:55, Carlo Blengino wrote:
>>> > Grazie!
>>> > Interessante leggere come da lontano vedano il GDPR e il diritto
>>> > all'oblio (o quello che è).
>>> > La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se
>>> > interpretato restrittivamente non è compatibile con la tecnologia
>>> degli
>>> > LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un
>>> > totale contrasto, su più principi di base. E questo è un problema per
>>> > l'Europa.
>>>
>>> non mi pare.
>>> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4
>>> re-training del modello all'anno.
>>>
>>> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici
>>> rispetto alle dimensioni del proprio modello (e per il sistema, fare un
>>> po' di ricerca su metodi di ottimizzazione)
>>>
>>> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/
>>>
>>> d'altronde, anche il consorzio obbligatorio degli olii usati è una
>>> maggiorazione di costi per i meccanici...
>>> :-)
>>>
>>>
>>>
>>> > Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-
>>> > accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel-
>>> > mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova
>>> > (quell'accordo e tutti gli accordi in atto sono una pessima deriva,
>>> sia
>>> > chiaro, ma per altre ragioni)
>>> > Aggiungo a scanso di equivoci, che questa considerazione non vuol dire
>>> a
>>> > mio parere che vi sia incompatibilità tra queste tecnologie ed il
>>> > sacrosanto diritto fondamentale alla protezione dei dati personali.
>>> > CB
>>> >
>>> >
>>> >
>>> > Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani
>>> > <daniela.taf...@unipi.it <mailto:daniela.taf...@unipi.it>> ha scritto:
>>> >
>>> > Dec 01, 2024 - Georg Zoeller (AILTI)
>>> > The Curious Case of David Mayer, the man ChatGPT cannot name.
>>> >
>>> > ChatGPT users have noticed a curious behavior: It refuses to talk
>>> > about a 'David Mayer'. We have the explanation and point out less
>>> > obvious implications.
>>> >
>>> > TL;DR: While not a juicy conspiracy, OpenAI cut some corners on
>>> > regulatory compliance and the implications are less benign than they
>>> > seem. In fact, they can be weaponized with unexpected consequences.
>>> >
>>> > ChatGPT is well known for not knowing when to stop talking - the
>>> > underlying transformer architecture lends itself to hallucinations
>>> > in situations when the model is asked to generate text beyond the
>>> > context it was trained on. Even more curious, sometimes it starts
>>> > giving a response, only to change its mind mid sentence, and
>>> > terminating the conversation.
>>> >
>>> > So naturally, when the software stops and refuses to answer, users
>>> > take notice. In this case, ChatGPT users found that mention of the
>>> > name “David Mayer”, whenever included in a message, would
>>> > consistently cause the model to terminate the conversation.
>>> >
>>> > It’s a conspiracy!
>>> > Creating even more mystery, chatGPT rejection messages quickly move
>>> > from unhelpful to ominously threatening when the user starts
>>> > investigating the phenomenon.
>>> >
>>> > Continua qui:
>>> > <https://centreforaileadership.org/resources/
>>> > analysis_the_curious_case_of_one_david_mayer/ <https://
>>> > centreforaileadership.org/resources/
>>> > analysis_the_curious_case_of_one_david_mayer/>>
>>> >
>>> >
>>> >
>>> > --
>>> > *
>>> > *
>>> > *Avv. Carlo Blengino*
>>> > *
>>> > *
>>> > /Via Duchessa Jolanda n. 19,/
>>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>
>>>
>>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>>
>>> /10138 Torino (TO) - Italy
>>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>
>>> /
>>> > /tel. +39 011 4474035/
>>> > Penalistiassociati.it
>>> > //
>>>
>>> --
>>> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
>>>
>>>
>
> --
> *Avv. Carlo Blengino*
> *Via Duchessa Jolanda n. 19,
> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>*
> *10138 Torino (TO) - Italy
> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>*
> *tel. +39 011 4474035*
> Penalistiassociati.it
>
>
>

Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Reply via email to