> Un sacco di cose!
> Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, 
> ne indagherei i "bias di selezione" ovvero le opinioni che Google intende 
> imporre
> agli utenti senza risponderne.

Stiamo dicendo la stessa cosa.
Nel documento che ho citato leggo:
"IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after 
pre-processing".
Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. 
diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM.
Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter 
provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di 
terabyte).
Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro 
di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università 
evidentemente no)" faccio notare che non è solo Google a poterselo permettere, 
anche gli altri operano in quel modo.
Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia 
potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model 
diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e 
poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla 
botte.
L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty :
"In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è 
considerato un leader negativo e crudele, responsabile di molte atrocità e 
violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione 
con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e 
sofferenze per l'Italia e per il mondo intero."

A.

Reply via email to