Il problema è che per ottenere un surrogato distribuzionale della competenza linguistica sono necessari molti TB di testo. Ma per come sono fatti e come normalmente funzionano, i LM non sono in grado di separare gli aspetti 'grammaticali' da quelli fattuali e valoriali. Si cerca dunque fare qualcosa a monte e a valle del training, col filtraggio e l'allineamento, ed è qui che chi ha più risorse può far meglio valere il proprio vantaggio. Bisognerà dunque tornare a separare sintassi e semantica, come raccomandava Chomsky negli anni '50 in polemica coi distribuzionalisti del tempo. L'approccio c.d. "neurosimbolico" punta un po' a questo, quì un libro per chi vuole approfondire: https://www.iospress.com/catalog/books/compendium-of-neurosymbolic-artificial-intelligence
Il Dom 30 Giu 2024, 10:04 Mauro Gorrino <mauro.gorr...@gmail.com> ha scritto: > Se gli LLM si alimentano con quello che si trova a titolo gratuito in > rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente > infondato, di cui non sanno valutare l'attendibilità e che quindi prendono > in considerazione. > > Se invece si alimentassero a partire dagli studi degli storici seri, non > troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte > coperti da copyright e quindi non disponibili agli LLM. > > Il che mi pare sia un serio indizio del fatto che l'attendibilità di > quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini > a quella di una discussione in uno scompartimento ferroviario quando il > treno accumula ritardo e qualcuno afferma che quando c'era lui i treni > arrivavano in orario. > > Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <anto...@piumarossa.it> > ha scritto: > >> > Un sacco di cose! >> > Ad esempio, una volta verificato che sono effettivamente i dataset >> sorgente, >> > ne indagherei i "bias di selezione" ovvero le opinioni che Google >> intende imporre >> > agli utenti senza risponderne. >> >> Stiamo dicendo la stessa cosa. >> Nel documento che ho citato leggo: >> "IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after >> pre-processing". >> Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, >> ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM. >> Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per >> poter provare ad indagarne i filtri (non semplice, certo, parliamo pur >> sempre di terabyte). >> Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran >> lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre >> Università evidentemente no)" faccio notare che non è solo Google a >> poterselo permettere, anche gli altri operano in quel modo. >> Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in >> Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un >> model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno >> una frase e poi la successiva che inizia con "tuttavia", un colpo al >> cerchio ed uno alla botte. >> L'unico LLM "antifascista" che ho trovato è >> HuggingFaceM4/idefics2-8b-chatty : >> "In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è >> considerato un leader negativo e crudele, responsabile di molte atrocità e >> violazioni dei diritti umani. La sua politica di guerra e la sua >> collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno >> portato a molti danni e sofferenze per l'Italia e per il mondo intero." >> >> A. >> >