per quello che ho capito anche in relazione alla vicenda dell'accordo tra GEDI e OpenAI, il problema è che l'addestramento dei modelli con i dati 'presi a strascico' (per usare una espressione del Garante) che contengono informazioni personali (ad es. procedimenti penali passati o in corso) avviene senza una base giuridica, ad esempio quella che consente agli organi di informazione di trattare quei dati per legittimo interesse esercitando il diritto di cronaca e con l'obbligo di rettifica.
se questo è - indubbiamente - un problema, non vedo perché dovrebbe riguardare OpenAI e non anche gli altri, inclusi i modelli c.d. 'open' fatti nelle Università (ad esempio Sapienza), ma su questo mi pare che siamo d'accordo. di fatto la soluzione dell'opt-out sembra molto problematica: un LLM non è una Wikipedia on steroids, è proprio un altro oggetto. Se il mio omonimo (funzionario a Bruxelles) lo facesse, probabilmente cancellerebbe anche me, come facevi osservare. il fatto è che i LLM che conosciamo oggi imparano 'come' parlare e 'di cosa' parlare all at once, cioè la competenza linguistica e quella fattuale sono fuse in un sol blocco. i nuovi approcci basati su RAG (Retrieval Augmented Generation), à la Perplexity.ai, superano il problema, ma resta il peccato originale dell'addestramento illegale (almeno in Europa) dei loro modelli di base. credo che si finirà con una 'sanatoria', ma questa non può consistere in una ammenda o nella imposizione di costi, altrimenti la cosa andrà a vantaggio dei monopolisti e a discapito dei ricercatori pubblici e\o indipendenti. ah, Buon Natale! G. On Mon, 23 Dec 2024 at 14:55, Claudio Agosti < claudio.ago...@hermescenter.org> wrote: > Buondì nexas, i miei 2 cent sull'argomento: > > On Sat, Dec 21, 2024 at 10:21 AM Guido Vetere <vetere.gu...@gmail.com> > wrote: > > >> Ma poi: perché solo con OpenAI? Meta, Google, Anthropic etc. non hanno >> usato cose come CommonCrawl? Sicuri? >> > > Buon punto sollevi, ma, credo che il garante italiano abbia potuto > esprimersi relativamente alla pratica che aveva sotto mano, e, intanto, si > è mosso l'EDPB per dare un parere, così da uniformare quello che devono > fare i soggetti menzionati ed i futuri. Alla fine, considera, l'autorità > italiana è stata apripista in questo e ha dovuto giocare di compromessi, > sia perchè non è regolamentando e multando che si fa il progresso, sia > perchè il piacere che il pubblico ha dimostrato verso questa tecnologia > andava ben oltre la critica ed i dubbi che dovrebbe sollevare. > > >> Finirà che per 6 mesi avremo Sam Altman che fa supercazzole con la >> benedizione e il logo del Garante, e tutto questo per soli 15M. Un ottimo >> risultato, Sam! >> > > Commento fino alla virgola, per prima cosa, è una misura prescrittiva > nuova, quella di imporre una comunicazione pubblica. per secondo, non è > detto che ci sia il logo del garante, se sei obbligato a farlo, non vuol > dire che il messaggio sia condiviso/endorsato dall'autorità. per finire, il > problema che si deve affrontare è che deve essere dato un "opt-out", e > questo è chiaramente un problema di fondo perché l'uso dei dati personali > deve andare in opt-in (se si usa il consenso come base giuridica), ma per > via del funzionamento dei meccanismi di addestramento, l'opt-out sembra il > compromesso più praticabile. e questo deve essere noto anche a chi non va > su chatgpt.com, da qui, la campagna di comunicazione. > > quello che a me incuriosisce, è il metodo per fare opt-out. autenticare il > data subject. Ipoteticamente questi cittadini potrebbero chiedere di essere > rimossi. E questo è supportato dalla pratica dell'"unlearning", che > funziona rimuovendo i neuroni/token che non devono stare nel LLM, e i link > corrispettivi. > > Sebbene per Microsoft l'unlerarning sia la "soluzione per il GDPR e per il > copyright".... non è veramente una tecnica completa perchè non tutto quello > che afferisce al dato in input può essere identificato in token da > rimuovere. inoltre non è una tecnica che, secondo me, può funzionare per i > modelli general purpose. > Ad esempio, se sono uno degli omonimo di Silvio Berlusconi? Rimuovere i > token associati al nome di un data subject non permette di gestire > l'omonimia, la differenza tra cronaca, storia, e diritti degli interessati > in vita. > L'unlearning sulla base del Nome Cognome è un'approssimazione troppo > grossolana per dei modelli che trattano sia materiale recente, che storico, > che di cronaca, e che inventano roba nuova. Sono scopi, usi, e diritti così > diversi, che secondo me richiederanno una separazione dei modelli, amenochè > l'obiettivo di Big LLM non sia quello di creare il caos, così da far > credere che le regolamentazioni sono sempre sbagliate e lesive per gli > utenti ed il servizio.... un po' come è stato per i cookie banner :D > > Buone feste! > ... e ricordate: pucciare il panettone nel caffè, si dice sia un grande > portafortuna per l'anno 3 D.A. (scorrere alla fine: > https://hermescenter.substack.com/p/cosa-e-stato-per-noi-lanno-appena ) > >