Salve Stefano, Giovanni Battista e Nexa
Grazie anzitutto Giovanni Battista della segnalazione. L'approccio è l'unico che non vanifichi la protezione dei dati personali incentivandone contemporaneamente l'accumulo. Attenzione però che la cancellazione dei "modelli AI" va verificata. E come si verifica, ad esempio, che Google cancelli TUTTI i modelli prodotti direttamente od indirettamente attraverso i dati raccolti illegittimamente negli ultimi anni tramite Google Analytics in Europa? Come si dimostra che un certo dato NON ha partecipato alla programmazione statistica di un "modello"? Poiché la copia del dato non lascia tracce, l'unica è presumere che vi abbia partecipato se chi ha effettuato tale programmazione aveva accesso a tale dato. Il che significherebbe di fatto imporre a Google, Facebook & friends la cancellazione di tutti i loro "modelli" estratti da dati personali o loro elaborazioni. (ma vedi anche oltre per una alternativa estremamente costosa ma tecnicamente fattibile se propriamente pianificata) Se la Legge fosse più forte del codice (e gli stati più forti dei GAFAM) potremmo ricostruire l'informatica contemporanea in modo più democratico a partire da questo approccio. On March 17, 2022 12:04:50 PM UTC, Stefano Quintarelli wrote: > > questo mette fuori gioco l'idea di google di cancellare i dati (tanto > hanno gia' i modelli) e forse anche l'idea stessa di federated > learning ? > > la prima mi sembrerebbe ragionevole, la seconda meno Puoi elaborare? Per escludere la presenza di un dato personale in un "modello AI" (che altro non è che un software programmato statisticamente per una macchina virtuale... programmabile statisticamente [1]) è sufficiente - eliminare tutte le occorrenze di quel dato dalla base dati sorgente - rieseguire la programmazione statistica senza quel dato (ma con tutti gli altri esattamente immutati, inclusi quelli ottenuti da tutte le fonti casuali [2]). In questo modo puoi anche dimostrare che quel dato è stato usato ottenendo ESATTAMENTE lo stesso modello. Tuttavia questo non impedisce di usare una forma di "Federated Learning" [3] in cui gli utenti raccolgono i dati sui propri device, li analizzano e modificano come gli pare e poi ne rivendono a terzi alcune analisi (fermo restando la possibilità tecnica di alterare i risultati stessi) Anzi, un approccio di questo genere permetterebbe di tenere traccia di quali modelli sono stati impattati da quali dati. Naturalmente questo NON è ciò che Google spaccia per Federated Learning. Però non sono certo di aver capito cosa intendessi. Giacomo [1] impropriamente detta "rete neurale artificiale". [2] incluse, ovviamente, tutte variazioni dovute ad elaborazioni parallele, scheduler del sistema operativo, etc... [3] sarebbe più corretto chiamarlo "collective statistical programming", ma cozzerebbe un po' con la privatizzazione dei "modelli" da parte di grandi aziende _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa