> On 15 Oct 2023, at 22:02, Daniela Tafani <daniela.taf...@unipi.it> wrote:
> 
> Buonasera, 380°
> 
> Il 15/10/2023 20:21, 380° ha scritto:
>> 
>> Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le
>> limitazioni evidenziate nei test sulla competenza logico/linguistica di
>> BERT siano stati risolti da altri LLM?
>> 
> 
> Tra le pubblicazioni recenti, sul tema, segnalo
> 
> Vittoria Dentella, Elliot Murphy, Gary Marcus, Evelina Leivada, Testing AI 
> performance on less frequent aspects of language reveals insensitivity to 
> underlying meaning, 2023
> https://arxiv.org/abs/2302.12313
> 
> Abstract
> Advances in computational methods and big data availability have recently 
> translated into breakthroughs in AI applications. With successes in bottom-up 
> challenges partially overshadowing shortcomings, the 'human-like' performance 
> of Large Language Models has raised the question of how linguistic 
> performance is achieved by algorithms. Given systematic shortcomings in 
> generalization across many AI systems, in this work we ask whether linguistic 
> performance is indeed guided by language knowledge in Large Language Models. 
> To this end, we prompt GPT-3 with a grammaticality judgement task and 
> comprehension questions on less frequent constructions that are thus unlikely 
> to form part of Large Language Models' training data. These included 
> grammatical 'illusions', semantic anomalies, complex nested hierarchies and 
> self-embeddings. GPT-3 failed for every prompt but one, often offering 
> answers that show a critical lack of understanding even of high-frequency 
> words used in these less frequent grammatical constructions. The present work 
> sheds light on the boundaries of the alleged AI human-like linguistic 
> competence and argues that, far from human-like, the next-word prediction 
> abilities of LLMs may face issues of robustness, when pushed beyond training 
> data. 
> 
Attenzione, si stanno confondendo le capacità dei LLM con quelle delle loro 
applicazioni.
Nel caso citato le prove sono effettuate con text-davinci-02, che è un chatbot 
basato su GPT-3, non GPT-3 direttamente.
I chatbot sono stati ottenuti facendo fine-tuning su task di question answering 
e poi con RLHF per svolgere conversazioni.
Se si segue questa strada, allora si dovrebbe fare il fine-tuning di un modello 
su un task di reasoning, prima di concludere che non sa fare reasoning.
Ad esempio con il Chain-of-Thought prompting, si possono evidenziare capacità 
di ragionamento matematico.

Se invece ci vogliamo limitare alle capacità linguistiche dei modelli, questo è 
un altro studio:

Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., & 
Fedorenko, E. (2023, January 23). Dissociating language and thought in large 
language models: a cognitive perspective. ArXiv: 
https://arxiv.org/abs/2301.06627

— Beppe

> Ho intravisto anche (ma non l'ho letto)
> 
> Konstantine Arkoudas, GPT-4 Can’t Reason, 2023, 
> https://arxiv.org/abs/2308.03762
> 
> Buona serata,
> Daniela


_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to