Gentile Carlo,

anzitutto mille grazie per aver chiarito il punto legale. Da turista del 
diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio 
prezioso a tutte coloro che amano arricchirsi con le conoscenze che provengono 
da campi che non sono il proprio.
A me piacciono le tecnologie, poi nello scrivere di queste cose ho sviluppato 
una (malsana?) ammirazione per il lavoro dei cibernetici, che sono i 
"colpevoli", a mio modo di vedere, dell'approccio sub-simbolico all'Ai. Quindi 
provo a rispondere a questo specifico punto:

Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i 
Salami non hanno alcun interesse per l'umanità, e che non meritano tutela 
alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. 
Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come fosse 
il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la 
governano. I problemi sono altri e necessitano di risposte diverse.

Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema non è 
tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM crea quella 
che Lewis Mumford avrebbe definito "Authoritarian Technics". Non è l'unico 
"modo di esistenza" possibile.

Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non mi 
manderebbe in brodo di giuggiole, è l'approccio "democratico": la creazione di 
modelli generalisti diviene monopolio pubblico, in quanto -sotto stretto 
scrutinio della società con modi chiari e codificati legalmente tra cui 
trasparenza e accountability- solo lo stato è autorizzato a questo trattamento 
altamente pericoloso del dato in deroga al GDPR ai soli fini di ricerca.
A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI: quella 
di modificare il "comportamento" di un blob proprietario che tale sempre 
resterà per via del suo modo di esistenza inteso, sul piano tecnico, come "modo 
con cui sono reperiti e utilizzati i dati che ne inducono la programmazione 
statistica". Mi pare che sia l'idea che Morozov attribuisce ai "realisti" 
dell'Ai (cfr. articolo sul Boston Review passato in lista).

Secondo me sarebbe una pessima idea dal punto di vista del software libero, 
della concentrazione del potere, dell'innovazione e del creare un'eccezione a 
un diritto che dovrebbe essere umano fondamentale (quello al controllo dei 
propri dati), soprattutto alla luce dell'uso che l'accademia fa del potere e 
visto quanto ormai sia prona agli appetiti dell'industria, ma _ottima_ dal 
punto di vista del principio democratico dei "poteri e contropoteri". A patto 
di chiamare le cose col loro nome: a quel punto avremmo un blob proprietario 
scaricabile ed eseguibile gratuitamente fornito dal monopolio pubblico a fini 
di ricerca e sviluppo. Sempre un notevole passo avanti rispetto alla situazione 
attuale di appropriazione indebita dei commons e dei dati privati da parte di 
(cinque/sei) privati senza alcun contraddittorio politico o conflitto sociale.

Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto se è 
un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman (entrambi 
evidenti casi clinici, del primo sappiamo bene anche i motivi, vista la 
biografia).

Altra possibilità: provare a costruire dei LLM con dati interamente liberi e 
trasparenti per vedere se davvero sono tanto meno performanti del blob 
proprietario. In pratica partiremmo dal principio della libertà e del rispetto 
del diritto umano alla protezione dei dati personali e vedremmo cosa si può 
fare all'interno di quel contesto (guard-rail a priori invece che a 
posteriori). Lo so che questa idea pone sfide tecniche notevoli e non 
necessariamente destinate al successo ma... dove sta scritto che dev'essere 
semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i diritti 
dei lavoratori).

Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione 
tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole), 
sviluppando tecnologie che per funzionare non necessitino di masse così ingenti 
di dati così "sensibili" (perdonate il termine desueto/sbagliato), magari 
perché includono al loro interno un modello di mondo e affiancano all'approccio 
sub-simbolico un approccio simbolico.

E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per esempio, ma 
sono certo che in lista qualcuno sa fare altri esempi ancora più interessanti. 
Ovviamente tali ricerche dovrebbero essere condotte con il metodo scientifico 
(piena condivisione dei risultati, non mi dite "open" perché se no mi arrabbio: 
"alla maniera di Galilei" è più che sufficiente) cosa che al momento non mi 
pare essere la policy di Meta, Microsoft o tantomeno "Open" Ai.

Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare del 
tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo. Attualmente i 
modelli generalisti tipo Llama su cui fare "fine tuning" mi sembrano 
l'equivalente di quello che era il Kernel Unix per Stallman e il primo nucleo 
del progetto GNU, salvo per il fatto che non è detto sia possibile ottenere un 
Kernel interamente libero basato su questa tecnologia.

Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere.

Stefano

Inviato con l'email sicura [Proton Mail](https://proton.me/mail/home).

giovedì 5 dicembre 2024 00:41, Carlo Blengino <bleng...@penalistiassociati.it> 
ha scritto:

> Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di chiarire 
> la mia affermazione, forse un po' troppo secca, sull'incompatibilità del 
> GDPR, e anche di rispondere indirettamente alle considerazioni che precedono. 
> Non mi riferivo infatti solo al problema del diritto alla cancellazione.
>
> Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare servizi 
> basati su RAG, ma se anche così fosse, e i dati non fossero utilizzati per 
> addestramento, vi sarebbe comunque un trasferimento di dati ad OpenAI, quanto 
> meno per la vettorializzazione (credo si dica così) e si aprirebbero comunque 
> infinite diatribe sulla corretta attribuzione dei ruoli di titolare e 
> responsabile tra i diversi soggetti. Risolto faticosamente quello, il 
> problema per cui un archivio pubblico come l'archivio di un grande quotidiano 
> per il GDPR non sarà mai usabile da un fornitore per l'addestramento è vera, 
> quale che sia la modalità di acquisizione (che sia con lo scraping o con 
> accordi). Non ci sarà mai infatti per fini commeriali/imprenditoriali una 
> base giuridica che legittimi il trattamento di archivi così rilevanti, almeno 
> in UE, perchè quel dataset contiene per forza dati particolari ex art.9 e 
> dati giudiziari ex art. 10, circostanza questa che esclude il legittimo 
> interesse. Solo che quella è l'unica possibilità di liceità del trattamento 
> (il consenso ovviamente non è neppure pensabile), ed è già stata piegata e 
> forzata fin troppo per i motori di ricerca dopo la sentenza Costeja Gonzales 
> della ECJ. Per salvare il trattamento dei motori di ricerca quali titolari 
> del trattamento sulla base del legittimo interesse si sono compiute capriole 
> interpretative notevoli là dove tale base è recessiva rispetto al divieto di 
> trattamento di dati particolari, ma lì era più facile e nessuno poteva 
> vietare Google Search.
> Con gli LLM però non se ne esce, ed i tempi sono cambiati.
> Eppure gli archivi sono una fonte credo fondamentale e viene usata a man 
> bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione.
> E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più 
> consono alle privative legate alla proprietà intellettuale (altra normativa 
> in frizione) che non al tema della protezione dati. Nel GDPR non esiste 
> nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, 
> ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, non 
> sono di nessuno (il titolare è il titolare del trattamento, non dei dati, e 
> l'interessato non possiede i suoi dati, può pretenderne la protezione, a 
> determinate condizioni). E bene che sia così, perchè i dati, rectius le 
> informazioni, anche personali devono circolare santo cielo! Sono la base 
> della conoscenza, anche quella delle macchine spara stronzate 
> (frankfurtianamente)
> Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un disastro 
> per tutti, ma non perchè violino chissà quale diritto fondamentale dei 
> cittadini o la protezione dei dati, ma perché generano delle privative e 
> delle barriere economiche distorsive basate sul nulla, almeno sotto il 
> profilo della data protection (a mio giudizio anche sotto il profilo della 
> proprietà intellettuale, ma li le privative esistono davvero!).
>
> E di situazioni così, di incompatibilità, è piena la strada delle tecnologie 
> dell'informazione che necessitano della ruminazione di molte informazioni.
>
> Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è 
> incompatibile con il BigData (in allora il termine era una buzzword). 
> Minimizzazione, limitazione della conservazione, stretta finalità...tutta 
> roba contraria al valore informativo dei dati, ma per fortuna c'erano mille 
> eccezioni, varianti e deroghe e soprattutto quei principi si potevano 
> piegare, adattare e soprattutto i pochi che si occupavano di protezione dati 
> dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile e 
> recessivo, molto diverso dalla riservatezza (che quella sì se la passava già 
> davvero male).
>
> Possiamo decidere che quelle macchine e quelle tecnologie sono un male, che i 
> Salami non hanno alcun interesse per l'umanità, e che non meritano tutela 
> alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi tecnici. 
> Decidiamolo e lasciamole morire. Però non facciamolo usando il GDPR come 
> fosse il baluardo che difende l'umanità dall'AI cattiva e dai cattivi che la 
> governano. I problemi sono altri e necessitano di risposte diverse.
>
> Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma 
> sono comunque sempre grato a tutti in questa lista per gli stimoli e le 
> riflessioni che mi suscitate.
> CB
>
> ne fondi il trattamento
>
> Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <vetere.gu...@gmail.com> 
> ha scritto:
>
>> Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si 
>> possono cedere dati sensibili di cui si è responsabili, che i giornali 
>> pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono 
>> farne usi diversi senza il consenso degli interessati. Quindi la cessione 
>> sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere 
>> e smentire le notizie 'on the fly' come possono fare i giornali.
>>
>> Il problema è che i LLM acquisiscono competenze linguistiche generali (ad 
>> es. quelle che servono per fare summarization) e fattuali (chi è David 
>> Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti 
>> progressi, tutto è più o meno fuso in un sol blocco.
>>
>> Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented 
>> Generation (RAG). In questi casi, le competenze fattuali si trovano nei 
>> documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM spetta 
>> solo il compito di mettere in bella prosa alcuni passaggi informativi che 
>> non si trovano nel modello ma appunto in qualche testo leggibile e 
>> emendabile.
>>
>> La notizia è che per questo esercizio bastano modelli relativamente piccoli, 
>> anche 'aperti', e non è impensabile che questi possano essere costruiti con 
>> dati 'puliti'.
>> Nota a margine: quello che GEDI dice di voler fare, da quello che capisco, è 
>> esattamente un RAG, come quello che altre testate (es. Washington Post) 
>> stanno sperimentando. Non c'è davvero bisogno che OpenAI faccia training sul 
>> loro archivio.
>>
>> G.
>>
>> On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa 
>> <nexa@server-nexa.polito.it> wrote:
>>
>>> Ciao Carlo
>>>
>>> On 02/12/24 23:55, Carlo Blengino wrote:
>>>> Grazie!
>>>> Interessante leggere come da lontano vedano il GDPR e il diritto
>>>> all'oblio (o quello che è).
>>>> La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se
>>>> interpretato restrittivamente non è compatibile con la tecnologia degli
>>>> LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un
>>>> totale contrasto, su più principi di base. E questo è un problema per
>>>> l'Europa.
>>>
>>> non mi pare.
>>> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4
>>> re-training del modello all'anno.
>>>
>>> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici
>>> rispetto alle dimensioni del proprio modello (e per il sistema, fare un
>>> po' di ricerca su metodi di ottimizzazione)
>>> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/
>>>
>>> d'altronde, anche il consorzio obbligatorio degli olii usati è una
>>> maggiorazione di costi per i meccanici...
>>> :-)
>>>
>>>> Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-
>>>> accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel-
>>>> mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova
>>>> (quell'accordo e tutti gli accordi in atto sono una pessima deriva, sia
>>>> chiaro, ma per altre ragioni)
>>>> Aggiungo a scanso di equivoci, che questa considerazione non vuol dire a
>>>> mio parere che vi sia incompatibilità tra queste tecnologie ed il
>>>> sacrosanto diritto fondamentale alla protezione dei dati personali.
>>>> CB
>>>>
>>>>
>>>>
>>>> Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani
>>>> <daniela.taf...@unipi.it <mailto:daniela.taf...@unipi.it>> ha scritto:
>>>>
>>>> Dec 01, 2024 - Georg Zoeller (AILTI)
>>>> The Curious Case of David Mayer, the man ChatGPT cannot name.
>>>>
>>>> ChatGPT users have noticed a curious behavior: It refuses to talk
>>>> about a 'David Mayer'. We have the explanation and point out less
>>>> obvious implications.
>>>>
>>>> TL;DR: While not a juicy conspiracy, OpenAI cut some corners on
>>>> regulatory compliance and the implications are less benign than they
>>>> seem. In fact, they can be weaponized with unexpected consequences.
>>>>
>>>> ChatGPT is well known for not knowing when to stop talking - the
>>>> underlying transformer architecture lends itself to hallucinations
>>>> in situations when the model is asked to generate text beyond the
>>>> context it was trained on. Even more curious, sometimes it starts
>>>> giving a response, only to change its mind mid sentence, and
>>>> terminating the conversation.
>>>>
>>>> So naturally, when the software stops and refuses to answer, users
>>>> take notice. In this case, ChatGPT users found that mention of the
>>>> name “David Mayer”, whenever included in a message, would
>>>> consistently cause the model to terminate the conversation.
>>>>
>>>> It’s a conspiracy!
>>>> Creating even more mystery, chatGPT rejection messages quickly move
>>>> from unhelpful to ominously threatening when the user starts
>>>> investigating the phenomenon.
>>>>
>>>> Continua qui:
>>>> <https://centreforaileadership.org/resources/
>>>> analysis_the_curious_case_of_one_david_mayer/ <https://
>>>> centreforaileadership.org/resources/
>>>> analysis_the_curious_case_of_one_david_mayer/>>
>>>>
>>>>
>>>>
>>>> --
>>>> *
>>>> *
>>>> *Avv. Carlo Blengino*
>>>> *
>>>> *
>>>> /Via Duchessa Jolanda n. 19,/
>>>> /10138 Torino (TO) - Italy/
>>>> /tel. +39 011 4474035/
>>>> Penalistiassociati.it
>>>> //
>>>
>>> --
>>> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
>
> --
>
> Avv. Carlo Blengino
> Via Duchessa Jolanda n. 19,
> 10138 Torino (TO) - Italy
>
> tel. +39 011 4474035
> Penalistiassociati.it

Reply via email to