Solo a precisazione, a scanso di equivoci e imprecisioni: per finalità di ricerca il trattamento di dati personali anche "particolari" è ammesso ed anzi inventivato, con le dovute cautele. Tutto il GDPR e diverse normative UE spingono per l'apertura dei dati per la ricerca. Poi certo, nella complessità della catena del valore dei sistemi IA è tutto molto complesso...
Il ven 6 dic 2024, 17:39 Stefano Borroni Barale <s.bar...@erentil.net> ha scritto: > Gentile Carlo, > > anzitutto mille grazie per aver chiarito il punto legale. Da turista del > diritto avevo ovviamente compreso male, e credo che Nexa offra uno spazio > prezioso a tutte coloro che amano arricchirsi con le conoscenze che > provengono da campi che non sono il proprio. > A me piacciono le tecnologie, poi nello scrivere di queste cose ho > sviluppato una (malsana?) ammirazione per il lavoro dei cibernetici, che > sono i "colpevoli", a mio modo di vedere, dell'approccio sub-simbolico > all'Ai. Quindi provo a rispondere a questo specifico punto: > > *Possiamo decidere che quelle macchine e quelle tecnologie sono un male, > che i Salami non hanno alcun interesse per l'umanità, e che non meritano > tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi > tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il > GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai > cattivi che la governano. I problemi sono altri e necessitano di risposte > diverse.* > > Credo che metterla così rischi d'esser fuorviante. Ovviamente il problema > non è tecnologico bensì politico. L'attuale "modo di esistenza" dei LLM > crea quella che Lewis Mumford avrebbe definito "Authoritarian Technics". > Non è l'unico "modo di esistenza" possibile. > > Ce ne sono molti altri (TATA, al solito). Uno possibile, che comunque non > mi manderebbe in brodo di giuggiole, è l'approccio "democratico": la > creazione di modelli generalisti diviene monopolio pubblico, in quanto > -sotto stretto scrutinio della società con modi chiari e codificati > legalmente tra cui trasparenza e accountability- solo lo stato è > autorizzato a questo trattamento altamente pericoloso del dato *in deroga* > al GDPR ai soli fini di ricerca. > A tutte noi resterebbe la possibilità di cui è tanto preoccupata la OSI: > quella di modificare il "comportamento" di un *blob proprietario che tale > sempre resterà per via del suo modo di esistenza *inteso, sul piano > tecnico, come "modo con cui sono reperiti e utilizzati i dati che ne > inducono la programmazione statistica". Mi pare che sia l'idea che Morozov > attribuisce ai "realisti" dell'Ai (cfr. articolo sul Boston Review passato > in lista). > > Secondo me sarebbe una pessima idea dal punto di vista del software > libero, della concentrazione del potere, dell'innovazione e del creare > un'eccezione a un diritto che dovrebbe essere umano fondamentale (quello al > controllo dei propri dati), soprattutto alla luce dell'uso che l'accademia > fa del potere e visto quanto ormai sia prona agli appetiti dell'industria, > ma _ottima_ dal punto di vista del principio democratico dei "poteri e > contropoteri". A patto di chiamare le cose col loro nome: a quel punto > avremmo un *blob proprietario scaricabile ed eseguibile gratuitamente > fornito dal monopolio pubblico a fini di ricerca e sviluppo. *Sempre un > notevole passo avanti rispetto alla situazione attuale di appropriazione > indebita dei commons e dei dati privati da parte di (cinque/sei) privati > senza alcun contraddittorio politico o conflitto sociale. > > Il potere assoluto non può essere nelle mani di un solo uomo, soprattutto > se è un uomo con gravi problemi psichiatrici come Elon Musk o Sam Altman > (entrambi evidenti casi clinici, del primo sappiamo bene anche i motivi, > vista la biografia). > > Altra possibilità: provare a costruire dei LLM con dati interamente liberi > e trasparenti per vedere se davvero sono tanto meno performanti del *blob > proprietario. *In pratica partiremmo dal principio della libertà e del > rispetto del diritto umano alla protezione dei dati personali e vedremmo > cosa si può fare all'interno di quel contesto (guard-rail a priori invece > che a posteriori). Lo so che questa idea pone sfide tecniche notevoli e non > necessariamente destinate al successo ma... dove sta scritto che dev'essere > semplice? Quasi nulla che abbia valore è semplice da ottenere (vedi i > diritti dei lavoratori). > > Proseguendo poi la ricerca si potrebbe puntare a evitare la concentrazione > tout-court (questa ipotesi, invece, mi manderebbe in brodo di giuggiole), > sviluppando tecnologie che per funzionare non necessitino di masse così > ingenti di dati così "sensibili" (perdonate il termine desueto/sbagliato), > magari perché includono al loro interno un modello di mondo e affiancano > all'approccio sub-simbolico un approccio simbolico. > > E' la direzione di molta ricerca: Yann Le Cun con la sua JEPA, per > esempio, ma sono certo che in lista qualcuno sa fare altri esempi ancora > più interessanti. Ovviamente tali ricerche dovrebbero essere condotte con > il metodo scientifico (piena condivisione dei risultati, non mi dite "open" > perché se no mi arrabbio: "alla maniera di Galilei" è più che sufficiente) > cosa che al momento non mi pare essere la policy di Meta, Microsoft o > tantomeno "Open" Ai. > > Riassumendo: potrebbe anche essere che l'approccio LLM sia da abbandonare > del tutto. Ce lo potrebbe dire la ricerca pura, se la facessimo. > Attualmente i modelli generalisti tipo Llama su cui fare "fine tuning" mi > sembrano l'equivalente di quello che era il Kernel Unix per Stallman e il > primo nucleo del progetto GNU, salvo per il fatto che non è detto sia > possibile ottenere un Kernel interamente libero basato su questa > tecnologia. > > Almeno in parte, ci siamo già passati. Il futuro è tutto da scrivere. > > Stefano > > > > Inviato con l'email sicura Proton Mail <https://proton.me/mail/home>. > > giovedì 5 dicembre 2024 00:41, Carlo Blengino < > bleng...@penalistiassociati.it> ha scritto: > > Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di > chiarire la mia affermazione, forse un po' troppo secca, > sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle > considerazioni che precedono. Non mi riferivo infatti solo al problema del > diritto alla cancellazione. > > Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare > servizi basati su RAG, ma se anche così fosse, e i dati non fossero > utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati > ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si > aprirebbero comunque infinite diatribe sulla corretta attribuzione dei > ruoli di titolare e responsabile tra i diversi soggetti. Risolto > faticosamente quello, il problema per cui un archivio pubblico come > l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un > fornitore per l'addestramento è vera, quale che sia la modalità di > acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai > infatti per fini commeriali/imprenditoriali una base giuridica che > legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè > quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari > ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che > quella è l'unica possibilità di liceità del trattamento (il consenso > ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin > troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. > Per salvare il trattamento dei motori di ricerca quali titolari del > trattamento sulla base del legittimo interesse si sono compiute capriole > interpretative notevoli là dove tale base è recessiva rispetto al divieto > di trattamento di dati particolari, ma lì era più facile e nessuno poteva > vietare Google Search. > Con gli LLM però non se ne esce, ed i tempi sono cambiati. > Eppure gli archivi sono una fonte credo fondamentale e viene usata a man > bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. > E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più > consono alle privative legate alla proprietà intellettuale (altra normativa > in frizione) che non al tema della protezione dati. Nel GDPR non esiste > nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, > ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, > non sono di nessuno (il titolare è il titolare del trattamento, non dei > dati, e l'interessato non possiede i suoi dati, può pretenderne la > protezione, a determinate condizioni). E bene che sia così, perchè i dati, > rectius le informazioni, anche personali devono circolare santo cielo! Sono > la base della conoscenza, anche quella delle macchine spara stronzate > (frankfurtianamente) > Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un > disastro per tutti, ma non perchè violino chissà quale diritto fondamentale > dei cittadini o la protezione dei dati, ma perché generano delle privative > e delle barriere economiche distorsive basate sul nulla, almeno sotto il > profilo della data protection (a mio giudizio anche sotto il profilo della > proprietà intellettuale, ma li le privative esistono davvero!). > > E di situazioni così, di incompatibilità, è piena la strada delle > tecnologie dell'informazione che necessitano della ruminazione di molte > informazioni. > > Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è > incompatibile con il BigData (in allora il termine era una buzzword). > Minimizzazione, limitazione della conservazione, stretta finalità...tutta > roba contraria al valore informativo dei dati, ma per fortuna c'erano mille > eccezioni, varianti e deroghe e soprattutto quei principi si potevano > piegare, adattare e soprattutto i pochi che si occupavano di protezione > dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile > e recessivo, molto diverso dalla riservatezza (che quella sì se la passava > già davvero male). > > Possiamo decidere che quelle macchine e quelle tecnologie sono un male, > che i Salami non hanno alcun interesse per l'umanità, e che non meritano > tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi > tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il > GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai > cattivi che la governano. I problemi sono altri e necessitano di risposte > diverse. > > Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma > sono comunque sempre grato a tutti in questa lista per gli stimoli e le > riflessioni che mi suscitate. > CB > > ne fondi il trattamento > > > Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere < > vetere.gu...@gmail.com> ha scritto: > >> Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si >> possono cedere dati sensibili di cui si è responsabili, che i giornali >> pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono >> farne usi diversi senza il consenso degli interessati. Quindi la cessione >> sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere >> e smentire le notizie 'on the fly' come possono fare i giornali. >> >> Il problema è che i LLM acquisiscono competenze linguistiche generali (ad >> es. quelle che servono per fare summarization) e fattuali (chi è David >> Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti >> progressi, tutto è più o meno fuso in un sol blocco. >> >> Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented >> Generation (RAG). In questi casi, le competenze fattuali si trovano nei >> documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM >> spetta solo il compito di mettere in bella prosa alcuni passaggi >> informativi che non si trovano nel modello ma appunto in qualche testo >> leggibile e emendabile. >> >> La notizia è che per questo esercizio bastano modelli relativamente >> piccoli, anche 'aperti', e non è impensabile che questi possano essere >> costruiti con dati 'puliti'. >> Nota a margine: quello che GEDI dice di voler fare, da quello che >> capisco, è esattamente un RAG, come quello che altre testate (es. >> Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI >> faccia training sul loro archivio. >> >> G. >> >> >> On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < >> nexa@server-nexa.polito.it> wrote: >> >>> Ciao Carlo >>> >>> On 02/12/24 23:55, Carlo Blengino wrote: >>> > Grazie! >>> > Interessante leggere come da lontano vedano il GDPR e il diritto >>> > all'oblio (o quello che è). >>> > La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se >>> > interpretato restrittivamente non è compatibile con la tecnologia >>> degli >>> > LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un >>> > totale contrasto, su più principi di base. E questo è un problema per >>> > l'Europa. >>> >>> non mi pare. >>> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 >>> re-training del modello all'anno. >>> >>> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici >>> rispetto alle dimensioni del proprio modello (e per il sistema, fare un >>> po' di ricerca su metodi di ottimizzazione) >>> >>> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/ >>> >>> d'altronde, anche il consorzio obbligatorio degli olii usati è una >>> maggiorazione di costi per i meccanici... >>> :-) >>> >>> >>> >>> > Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- >>> > accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- >>> > mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova >>> > (quell'accordo e tutti gli accordi in atto sono una pessima deriva, >>> sia >>> > chiaro, ma per altre ragioni) >>> > Aggiungo a scanso di equivoci, che questa considerazione non vuol dire >>> a >>> > mio parere che vi sia incompatibilità tra queste tecnologie ed il >>> > sacrosanto diritto fondamentale alla protezione dei dati personali. >>> > CB >>> > >>> > >>> > >>> > Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani >>> > <daniela.taf...@unipi.it <mailto:daniela.taf...@unipi.it>> ha scritto: >>> > >>> > Dec 01, 2024 - Georg Zoeller (AILTI) >>> > The Curious Case of David Mayer, the man ChatGPT cannot name. >>> > >>> > ChatGPT users have noticed a curious behavior: It refuses to talk >>> > about a 'David Mayer'. We have the explanation and point out less >>> > obvious implications. >>> > >>> > TL;DR: While not a juicy conspiracy, OpenAI cut some corners on >>> > regulatory compliance and the implications are less benign than they >>> > seem. In fact, they can be weaponized with unexpected consequences. >>> > >>> > ChatGPT is well known for not knowing when to stop talking - the >>> > underlying transformer architecture lends itself to hallucinations >>> > in situations when the model is asked to generate text beyond the >>> > context it was trained on. Even more curious, sometimes it starts >>> > giving a response, only to change its mind mid sentence, and >>> > terminating the conversation. >>> > >>> > So naturally, when the software stops and refuses to answer, users >>> > take notice. In this case, ChatGPT users found that mention of the >>> > name “David Mayer”, whenever included in a message, would >>> > consistently cause the model to terminate the conversation. >>> > >>> > It’s a conspiracy! >>> > Creating even more mystery, chatGPT rejection messages quickly move >>> > from unhelpful to ominously threatening when the user starts >>> > investigating the phenomenon. >>> > >>> > Continua qui: >>> > <https://centreforaileadership.org/resources/ >>> > analysis_the_curious_case_of_one_david_mayer/ <https:// >>> > centreforaileadership.org/resources/ >>> > analysis_the_curious_case_of_one_david_mayer/>> >>> > >>> > >>> > >>> > -- >>> > * >>> > * >>> > *Avv. Carlo Blengino* >>> > * >>> > * >>> > /Via Duchessa Jolanda n. 19,/ >>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g> >>> >>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>> >>> /10138 Torino (TO) - Italy >>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g> >>> / >>> > /tel. +39 011 4474035/ >>> > Penalistiassociati.it >>> > // >>> >>> -- >>> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram) >>> >>> > > -- > *Avv. Carlo Blengino* > *Via Duchessa Jolanda n. 19, > <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* > *10138 Torino (TO) - Italy > <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* > *tel. +39 011 4474035* > Penalistiassociati.it > > >