Scusate se riprendo questo tema dall’inizio, in quanto finora sono stato 
impegnato ad organizzare questo dibattito, che affronta alcuni delle questioni 
di fondo sulle capacità dell’AI di avere impatti sulla società:

        
https://sites.google.com/view/ellisfms2023/program/debate-ai-societal-impact

e a cui parteciperanno alcuni tra i principali esperti al mondo, tra cui Yoshua 
Bengio, Moshe Vardi, Ricardo Baeza-Yates, Gary Marcus, Geoff Hinton.

Gli ultimi due si confronteranno proprio sulla questione se i LLM siano in 
grado di comprendere.

Daniele Gambetta riporta il termine spregiativo di “stochastic parrot” che è 
stato affibbiato ai LLM da Timnit Gebru e colleghi. L’articolo è molto 
controverso ed è costato a Gebru il posto a Google.
Nell’articolo si sostiene che:

An LM is a system for haphazardly stitching together sequences of linguistic 
forms it has observed in its vast training data, according to probabilistic 
information about how they combine, but without any reference to meaning: a 
stochastic parrot.

Questa affermazione è superficiale e inesatta, perché non tiene conto di alcune 
cose:

1. Alla base dei LLMs ci sono i word embedding, un modo per assegnare un 
significato alle parole, un problema che ha eluso la filosofia e la linguistica 
per due millenni e che il Deep Learning ha risolto. Questo è quanto afferma 
Hinton in proposito:
        “Many people who think it’s just statistics are thinking in terms of 
program models or counting the co-occurrence frequencies of words. We think 
this process of creating features of the embeddings and then interactions 
between features is actually understanding. Once you’ve taken the raw data of 
symbol strings and you can now predict the next symbol not by things like 
trigrams, but the huge number of features interacting in very complicated way 
to predict the features of the next word and from that make a prediction about 
the probability of the next word, the point is that is understanding, at least 
I believe that is understanding. I believe that is what our brains are doing. 
But that’s an issue to be discussed by the research community and it would be 
great if we could convince people that they are not just stochastic parrots.”

2. I LLM sono evoluti dai tempi dell’articolo, in particolare, ChatGPT e 
successivi sono stati allenati a interagire in conversazioni con il fine-tuning 
e quindi a tenere conto del contesto della discussione

3. La capacità di “comprendere” è difficile da definire, almeno in termini 
umani. L’unico modo che abbiamo per stabilire se uno studente ha “capito” una 
certa materia, è di sottoporlo a domande di verifica di comprensione. Ma in 
gran parte di tali test, GPT-4 supera il livello medio umano. Quindi, a tutti 
gli effetti pratici, capisce non solo una, ma molte materie. Lo “capisce” in 
una qualche forma diversa dalla nostra, ma pur sempre verificabile.

4. Le sorprendenti abilità dei LLM (perché hanno sorpreso tutti, compresi i 
loro sviluppatori), derivano dal fenomeno denominato “emergent abilities”, che 
appiano solo quando i modelli superano una certa scala. Per ora si tratta di 
un'osservazione empirica, iniziata con gli esperimenti di Jason Wei sul 
Chain-of-Thought, ma che si sta cercando di approfondire con una serie di 
spunti.
Uno di questi si lega alla teoria dei sistemi complessi di Giorgio Parisi, che 
spiega il loro comportamento come dovuto all’applicazione su larga scala di 
semplici leggi probabilistiche.
Ho suggerito a Parisi che sia proprio questo ciò che avviene nei LLM, che 
applicano su larga scala, in modelli di centinaia di miliardi di parametri, la 
semplice probabilità stimata della prossima parola. Parisi mi ha confermato di 
persona che l’ipotesi è alquanto plausibile. Questa stessa ipotesi spiega 
perché molti si rifiutano di riconoscere queste capacità: la mente umana è 
abituata a comprendere i fenomeni, scomponendoli in poche parti funzionali, che 
si combinano in modo deterministico. Nei fenomeni complessi questo non è 
possibile farlo. 
Nel frattempo stanno uscendo diversi lavori scientifici, che cercano di dare 
una base scientifica al fenomeno:
1. Ekin Akyürek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, and Denny Zhou. 
What learning algorithm is in-context learning? Investigations with linear 
models <https://openreview.net/forum?id=0g0X4H8yN4I>.  ICLR 2023 (Oral)
2. Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang. Towards 
Revealing the Mystery behind Chain of Thought: A Theoretical Perspective 
<https://arxiv.org/abs/2305.15408>. NeurIPS 2023 (Oral). 
3. Angeliki Giannou, Shashank Rajput, Jy-yong Sohn, Kangwook Lee, Jason D Lee, 
Dimitris Papailiopoulos. Looped Transformers as Programmable Computers 
<https://arxiv.org/abs/2301.13196>. ICML 2023.
4. Ruiqi Zhang, Spencer Frei, Peter L Bartlett. Trained Transformers Learn 
Linear Models In-Context 
<https://scholar.google.com/citations?view_op=view_citation&hl=en&user=uErE2UUAAAAJ&citation_for_view=uErE2UUAAAAJ:2osOgNQ5qMEC>.
 arXiv preprint arXiv:2306.09927, 2023.
Segnalo anche questo video di una presentazione di Sanjeev Arora su A Theory of 
Emergence of Complex Skills in Language Models 
(https://www.youtube.com/live/0D23NeBjCeQ?si=Trtt160lkXCgFEa6)

In sostanza, siamo di fronte a questioni scientifiche articolate e complesse, e 
suggerisco che vengano affrontate basandosi su studi scientifici, di cui c’è 
molto bisogno.
Per uno studente del Dottorato Nazionale in Intelligenza Artificiale (che ho 
contribuito a far nascere) dovrebbe essere una grande opportunità.

— Beppe 

> On 6 Oct 2023, at 23:30, <nexa-requ...@server-nexa.polito.it> 
> <nexa-requ...@server-nexa.polito.it> wrote:
> 
> From: Daniele Gambetta <daniele.gambet...@gmail.com 
> <mailto:daniele.gambet...@gmail.com>>
> To: nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>
> Subject: [nexa] IA, lavoro, immaginari
> Message-ID:
>       <cajtd2eikfissqhkhr7dhmzwfn9b5ijpltlerz7vh8h4yrwe...@mail.gmail.com 
> <mailto:cajtd2eikfissqhkhr7dhmzwfn9b5ijpltlerz7vh8h4yrwe...@mail.gmail.com>>
> Content-Type: text/plain; charset="utf-8"
> 
> Ciao a tutte/i,
> seguo da tempo questa mailing list con interesse anche se scrivo poco.
> Volevo segnalarvi un articolo che ho scritto di recente su temi legati
> all'IA, pubblicato in due parti su DinamoPress.
> Mi farebbe piacere avere feedback e pareri o avviare una discussione.
> 
> 1)
> https://www.dinamopress.it/news/al-di-la-del-faust-e-dellhype-appunti-su-intelligenza-artificiale-e-dintorni/
> 2)
> https://www.dinamopress.it/news/technic-and-magic-animismo-di-piattaforma-e-svolta-linguistica-2-0-seconda-parte/
> 
> Saluti e buon we.
> Daniele

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to