Il problema è che per ottenere un surrogato distribuzionale della
competenza linguistica sono necessari molti TB di testo. Ma per come sono
fatti e come normalmente funzionano, i LM non sono in grado di separare gli
aspetti 'grammaticali' da quelli fattuali e valoriali. Si cerca dunque fare
qualcosa a monte e a valle del training, col filtraggio e l'allineamento,
ed è qui che chi ha più risorse può far meglio valere il proprio vantaggio.
Bisognerà dunque tornare a separare sintassi e semantica, come raccomandava
Chomsky negli anni '50 in polemica coi distribuzionalisti del tempo.
L'approccio c.d. "neurosimbolico" punta un po' a questo, quì un libro per
chi vuole approfondire:
https://www.iospress.com/catalog/books/compendium-of-neurosymbolic-artificial-intelligence

Il Dom 30 Giu 2024, 10:04 Mauro Gorrino <mauro.gorr...@gmail.com> ha
scritto:

> Se gli LLM si alimentano con quello che si trova a titolo gratuito in
> rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente
> infondato, di cui non sanno valutare l'attendibilità e che quindi prendono
> in considerazione.
>
> Se invece si alimentassero a partire dagli studi degli storici seri, non
> troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte
> coperti da copyright e quindi non disponibili agli LLM.
>
> Il che mi pare sia un serio indizio del fatto che l'attendibilità di
> quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini
> a quella di una discussione in uno scompartimento ferroviario quando il
> treno accumula ritardo e qualcuno afferma che quando c'era lui i treni
> arrivavano in orario.
>
> Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <anto...@piumarossa.it>
> ha scritto:
>
>> > Un sacco di cose!
>> > Ad esempio, una volta verificato che sono effettivamente i dataset
>> sorgente,
>> > ne indagherei i "bias di selezione" ovvero le opinioni che Google
>> intende imporre
>> > agli utenti senza risponderne.
>>
>> Stiamo dicendo la stessa cosa.
>> Nel documento che ho citato leggo:
>> "IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after
>> pre-processing".
>> Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati,
>> ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM.
>> Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per
>> poter provare ad indagarne i filtri (non semplice, certo, parliamo pur
>> sempre di terabyte).
>> Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran
>> lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre
>> Università evidentemente no)" faccio notare che non è solo Google a
>> poterselo permettere, anche gli altri operano in quel modo.
>> Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in
>> Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un
>> model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno
>> una frase e poi la successiva che inizia con "tuttavia", un colpo al
>> cerchio ed uno alla botte.
>> L'unico LLM "antifascista" che ho trovato è
>> HuggingFaceM4/idefics2-8b-chatty :
>> "In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è
>> considerato un leader negativo e crudele, responsabile di molte atrocità e
>> violazioni dei diritti umani. La sua politica di guerra e la sua
>> collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno
>> portato a molti danni e sofferenze per l'Italia e per il mondo intero."
>>
>> A.
>>
>

Reply via email to