> Un sacco di cose! > Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, > ne indagherei i "bias di selezione" ovvero le opinioni che Google intende > imporre > agli utenti senza risponderne.
Stiamo dicendo la stessa cosa. Nel documento che ho citato leggo: "IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing". Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM. Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte). Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo. Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte. L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty : "In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero." A.