> On 15 Oct 2023, at 22:02, Daniela Tafani <daniela.taf...@unipi.it> wrote: > > Buonasera, 380° > > Il 15/10/2023 20:21, 380° ha scritto: >> >> Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le >> limitazioni evidenziate nei test sulla competenza logico/linguistica di >> BERT siano stati risolti da altri LLM? >> > > Tra le pubblicazioni recenti, sul tema, segnalo > > Vittoria Dentella, Elliot Murphy, Gary Marcus, Evelina Leivada, Testing AI > performance on less frequent aspects of language reveals insensitivity to > underlying meaning, 2023 > https://arxiv.org/abs/2302.12313 > > Abstract > Advances in computational methods and big data availability have recently > translated into breakthroughs in AI applications. With successes in bottom-up > challenges partially overshadowing shortcomings, the 'human-like' performance > of Large Language Models has raised the question of how linguistic > performance is achieved by algorithms. Given systematic shortcomings in > generalization across many AI systems, in this work we ask whether linguistic > performance is indeed guided by language knowledge in Large Language Models. > To this end, we prompt GPT-3 with a grammaticality judgement task and > comprehension questions on less frequent constructions that are thus unlikely > to form part of Large Language Models' training data. These included > grammatical 'illusions', semantic anomalies, complex nested hierarchies and > self-embeddings. GPT-3 failed for every prompt but one, often offering > answers that show a critical lack of understanding even of high-frequency > words used in these less frequent grammatical constructions. The present work > sheds light on the boundaries of the alleged AI human-like linguistic > competence and argues that, far from human-like, the next-word prediction > abilities of LLMs may face issues of robustness, when pushed beyond training > data. > Attenzione, si stanno confondendo le capacità dei LLM con quelle delle loro applicazioni. Nel caso citato le prove sono effettuate con text-davinci-02, che è un chatbot basato su GPT-3, non GPT-3 direttamente. I chatbot sono stati ottenuti facendo fine-tuning su task di question answering e poi con RLHF per svolgere conversazioni. Se si segue questa strada, allora si dovrebbe fare il fine-tuning di un modello su un task di reasoning, prima di concludere che non sa fare reasoning. Ad esempio con il Chain-of-Thought prompting, si possono evidenziare capacità di ragionamento matematico.
Se invece ci vogliamo limitare alle capacità linguistiche dei modelli, questo è un altro studio: Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2023, January 23). Dissociating language and thought in large language models: a cognitive perspective. ArXiv: https://arxiv.org/abs/2301.06627 — Beppe > Ho intravisto anche (ma non l'ho letto) > > Konstantine Arkoudas, GPT-4 Can’t Reason, 2023, > https://arxiv.org/abs/2308.03762 > > Buona serata, > Daniela _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa