Buongiorno Giuseppe,

[un appello generale: per favore quando si fanno citazioni a delle fonti
è possibile avere il riferimento?]

Un modesto consiglio non richiesto: prego chiunque di non prendere mai
sul personale le critiche al proprio lavoro o alle proprie convinzioni
scientifiche, non mi riferisco a nessuno in particolare.

Giuseppe Attardi <atta...@di.unipi.it> writes:

[...]

> Daniele Gambetta riporta il termine spregiativo di “stochastic parrot”

Capisco bene che quel termine faccia incazzare un numero incalcolabile
di persone ma bisogna ammettere che è una _genialata_ (che mai e poi mai
avrebbe potuto essere generata da un LLM, tra l'altro)

A un brianzolo per descrivere in poche parole quello che producono gli
LLM è «fà e disfà l'è tücc un lavurà»

> che è stato affibbiato ai LLM da Timnit Gebru e colleghi.

Daniela Tafani ha già spiegato chi ha "affibiato" il termine e perché.

Nota a margine: credo che non pochi etologi avrebbero da ridire sul
fatto che gli LLM siano anche solo vagamente accostati ai pappagalli (o
qualsiasi altro animale), la cui intelligenza probabilmente è di diversi
ordini di grandezza superiore a qualsiasi AI: «Parrots have evolved a
primate-like telencephalic-midbrain-cerebellar circuit»
https://www.nature.com/articles/s41598-018-28301-4

Però è una nota a margine, spero non parta un sub-thread su questo.

> L’articolo è molto controverso ed è costato a Gebru il posto a Google.

Perché in Google non c'è posto per la ricerca scientifica. Punto.

> Nell’articolo si sostiene che:

Sì ma quale articolo, di grazia?!?

> An LM is a system for haphazardly stitching together sequences of
> linguistic forms it has observed in its vast training data, according
> to probabilistic information about how they combine, but without any
> reference to meaning: a stochastic parrot.
>
> Questa affermazione è superficiale e inesatta,

Com'è che i superficiali ed inesatti sono sempre gli altri?

Quella frase, decontestualizzata, può benissimo /apparire/ superficiale
e inesatta, ma magari nel giusto contesto anche no.

«On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?»

https://dl.acm.org/doi/epdf/10.1145/3442188.3445922
https://archive.org/details/stochastic-parrots-3442188.3445922
https://web.archive.org/web/20210311003046/https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
https://archive.is/z4LY8

Purtroppo, come tanti, TROPPI articoli pubblicati, lo studio è
disponibile solo in formato PDF quindi non posso produrre un link
diretto al capitolo dal quale è stata estratta la citazione, che è: «6.1
Coherence in the Eye of the Beholder»

Chiunque abbia intenzione di comprendere il senso della frase estratta
sopra, _deve_ prendersi almeno 10 minuti per leggere il capitolo 6.1 del
paper, che contiene diversi riferimenti bibliografici a supporto di
delle affermazioni che vengono fatte, sono la base (scientifica?!?)  per
la _sintesi_ /polemica/ che viene fatta al termine del capitolo, quella
estratta sopra.

Io cito solo questo (che però si può comprendere solo /contestualizzando/):

--8<---------------cut here---------------start------------->8---

This can seem counter-intuitive given the increasingly fluent qualities
of automatically generated text, but we have to account for the fact
that our perception of natural language text, regardless of how it was
generated, is mediated by our own linguistic competence and our
predisposition to interpret communicative acts as conveying coherent
meaning and intent, whether or not they do [89, 140].

--8<---------------cut here---------------end--------------->8---

Questo, tra l'altro, la dice _molto_ lunga in merito all'efficacia del
c.d. "Touring Test", perché è ovvio che un ignorante in materia (già, ma
/quale/ materia?) può essere banalmente ingannato, perfino da un
programma.

> perché non tiene conto di alcune cose:
>
> 1. Alla base dei LLMs ci sono i word embedding,

trattasi sempre di NLP, sempre più sofisticato ma quello è,
informaticamente parlando

> un modo per assegnare un significato alle parole,

«Così come l'amore non esiste ed è per quello che lo /facciamo/, le
parole non hanno significato ed è per quello che noi glielo /diamo/.»
(elucubrazione mia)

Il significato alle parole lo danno gli umani, punto.

Tratto sempre dal paragrafo «6.1 Coherence in the Eye of the Beholder»:

--8<---------------cut here---------------start------------->8---

human communication relies on the interpretation of implicit meaning
conveyed between individuals. The fact that human-human communication is
a jointly constructed activity [29, 128] is most clearly true in
co-situated spoken or signed communication,

--8<---------------cut here---------------end--------------->8---

Riferimenti:
[29] Herbert H. Clark. 1996. Using Language. Cambridge University Press, 
Cambridge

[128] Greg J. Stephens, Lauren J. Silbert, and Uri Hasson. 2010. 
Speaker–listener
neural coupling underlies successful communication. Proceedings of the National
Academy of Sciences 107, 32 (2010), 14425–14430. https://doi.org/10.1073/pnas.
1008662107 arXiv:https://www.pnas.org/content/107/32/14425.full.pdf
https://web.archive.org/web/20220930172709/https://www.pnas.org/doi/pdf/10.1073/pnas.1008662107
https://archive.ph/6D2Gy

> un problema che ha eluso la filosofia e la linguistica per due
> millenni

No dai, questa è davvero troppo grossa!

> e che il Deep Learning ha risolto.

Anche questa è un filino esagerata... ma io chi sono per dirlo?!?

> Questo è quanto afferma Hinton in proposito: "Many people who think
> it’s just statistics are thinking in terms of program models or
> counting the co-occurrence frequencies of words. We think this process
> of creating features of the embeddings and then interactions between
> features is actually understanding.

Sì credo che ormai il qui pro quo su cosa significhi "understanding" sia
chiarissimo

> Once you’ve taken the raw data of symbol strings

Già solo far riferimento a "raw data" in un contesto scientifico
dovrebbe far scattare l'allarme rosso, no?

--8<---------------cut here---------------start------------->8---

data is self-contained and context-independent, and that with sufficient
data, concerns about causation, bias, selection, and incompleteness can
be disregarded. It is a seductive vision: Raw data, uncorrupted by
theory or ideology, will lead us to the truth; complex problems will be
solved simply by throwing enough data at them. No experts will be
required, apart from those needed to produce the data and herald their
findings; no theory, values, or preferences will be relevant; nor will
it be necessary to scrutinize any assumptions.

--8<---------------cut here---------------end--------------->8---
(tratto da: https://www.thenewatlantis.com/publications/why-data-is-never-raw)

[...]

> I believe that is understanding. I believe that is what our brains are
> doing. But that’s an issue to be discussed by the research community
> and it would be great if we could convince people that they are not
> just stochastic parrots.”

Interessantissimo questo sillogismo: siccome il cervello delle persone
comprende come fa una macchina (LLM, deep learning, ecc.) sarebbe bello
che convincessimo le persone che non non sono solo pappagalli
stocastici.

Ho letto bene?

Siccome il cervello funziona così?!?!?

Quindi grazie agli LLM non solo abbiamo risolto questioni filosofiche
aperte da millenni ma abbiamo pure capito come funziona il cervello
umano.

Non è un po' esagerata come linea di dissertazione accademica?

> 2. I LLM sono evoluti dai tempi dell’articolo, in particolare, ChatGPT
> e successivi sono stati allenati a interagire in conversazioni con il
> fine-tuning e quindi a tenere conto del contesto della discussione

La cosa non sposta di una virgola la questione, infatti:

«With GPT-4, dangers of ‘Stochastic Parrots’ remain, say researchers. No
wonder OpenAI CEO is a ‘bit scared’ | The AI Beat», March 20, 2023

https://venturebeat.com/ai/with-gpt-4-dangers-of-stochastic-parrots-remain-say-researchers-no-wonder-openai-ceo-is-a-bit-scared-the-ai-beat/

--8<---------------cut here---------------start------------->8---

Fast forward to now: There was no research paper attached to the GPT-4
launch that shares details about its architecture (including model
size), hardware, training compute, dataset construction or training
method.

--8<---------------cut here---------------end--------------->8---

In altre parole: non c'è proprio nessun consenso scientifico che
giustifichi l'affermazione che gli (extra)LLM siano in grado di
comprendere il linguaggio.

> 3. La capacità di “comprendere” è difficile da definire, almeno in
> termini umani.

Ed è per questo che gli umanisti, tra cui linguisti, filosofi,
semiologi, epistemologi (la specializzazione nel settore è letteralmente
esplosa) ci stanno lavorando da millenni, mi auguro che nessuno
scienziato pensi davvero di buttare letteralmente nel cesso il loro
lavoro.

Nel mentre sull'argomento se ne sentono davvero di cotte e di crude. :-D

[...]

> Ma in gran parte di tali test, GPT-4 supera il livello medio umano.

Questo la dice lunga sul valore dei test di valutazione.

Sulla valutazione della comprensione umana ci sarebbe da fare un
convegno intero, no?

https://journals.sagepub.com/doi/full/10.1177/1098214020920710
«What Is Evaluation?: Perspectives of How Evaluation Differs (or Not)
From Research»

https://link.springer.com/article/10.1007/s11251-020-09522-5
«Promoting students’ use of epistemic understanding in the evaluation of
socioscientific issues through a practice-based approach»

Ha tutto molto a che fare col "giudizio" kantiano.

> Quindi, a tutti gli effetti pratici, capisce non solo una, ma molte
> materie. Lo “capisce” in una qualche forma diversa dalla nostra, ma
> pur sempre verificabile.

Ecco appunto: verificabile da chi?!?  Da uno di noi, un umano.

Tra l'altro, se è persino verificabile (da un umano) che lo "capisce" in
una qualche forma diversa significa che NON lo capisce come lo capiscono
gli umani... che è solo un giro di parole per dire che non lo capisce.

[...]

> Uno di questi si lega alla teoria dei sistemi complessi di Giorgio
> Parisi, che spiega il loro comportamento come dovuto all’applicazione
> su larga scala di semplici leggi probabilistiche.

E se lo dice Giorgio Parisi /allora/ è dimostrato: l'intero universo è
un _meccanismo_ che si spiega attraverso l'applicazione su larga scala
di leggi probabilistiche... più che la teoria del Big Bang siamo alla
teoria del Big Bingo.

[...]

> In sostanza, siamo di fronte a questioni scientifiche articolate e
> complesse, e suggerisco che vengano affrontate basandosi su studi
> scientifici, di cui c’è molto bisogno.

Studi scientifici multi-disciplinari che non scartino a priori lavori di
altri scienziati solo perché non si adattano bene al modello
dell'universo prescelto _e_ non ignorino un sano lavoro meta-scientifico
che non può non coinvolgere il lato /umanistico/ della scienza.

In altre parole non dimenticarsi mai che la scienza fa parte della
filosofia e non viceversa.

[...]

Cordiali saluti, 380°

-- 
380° (Giovanni Biscuolo public alter ego)

«Noi, incompetenti come siamo,
 non abbiamo alcun titolo per suggerire alcunché»

Disinformation flourishes because many people care deeply about injustice
but very few check the facts.  Ask me about <https://stallmansupport.org>.

Attachment: signature.asc
Description: PGP signature

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to