Domanda pertinente su cui si incentra la differenza i opinioni tra coloro che 
pensano che i LLM siano solo generatori di next-token (Nardelli) a partire da 
una rappresentazione compress dei dati (Tesio) e chi ritiene che il meccanismo 
sia quello di un sistema complesso.

Franco dà una buona risposta rifacendosi ad un’analogia e accennando ai sistemi 
complessi.

Certo che conosciamo nei minimi dettagli gli algoritmi per allenare e fare 
inferenza con le DNN (backpropagation, gradient descent, ecc.), ma siccome il 
risultato dipende da milioni di interazioni tra i neuroni della rete, non 
abbiamo un modo semplice di spiegare il risultato.
Non possiamo applicare il metodo riduzionista a questi modelli, per ricondurne 
il funzionamento a quello delle parti di cui è composto e alle regole che 
queste utilizzano.
Come nei sistemi complessi di Giorgio Parisi, questi modelli esibiscono un 
comportamento emergente::
1. Le DNN utilizzano funzioni di attivazione complesse e non lineari che creano 
trasformazioni difficili da mappare direttamente a un algoritmo interpretabile.
2. La "conoscenza" all'interno di una rete neurale è distribuita su miliardi di 
parametri. Tracciare il percorso decisionale per una singola previsione è di 
fatto impossibile.
3. A differenza del software tradizionale, l'apprendimento profondo estrae da 
solo le caratteristiche su cui opera. Scopre relazioni nascoste e complesse nei 
dati a vari livelli di astrazione che non sono direttamente interpretabili.

Il blog (https://www.anthropic.com/research/natural-language-autoencoders) in 
cui si presenta l'articolo che ho riportato inizia da questa premessa:

When you talk to an AI model like Claude, you talk to it in words. Internally, 
Claude processes those words as long lists of numbers, before again producing 
words as its output. These numbers in the middle are called activations—and 
like neural activity in the human brain, they encode Claude’s thoughts.
Also like neural activity, activations are difficult to understand. We can’t 
easily decode them to read Claude’s thoughts. Over the past few years, we’ve 
developed a range of tools (like sparse autoencoders and attribution graphs) 
for better understanding activations. These tools have taught us a great deal, 
but they don’t speak for themselves—their outputs are still complex objects 
that trained researchers need to carefully interpret.

Del resto c’è una semplice controprova: se sapessimo scrivere del codice 
tradizionale in grado di fare ciò che fanno i LLM, perché nessuno è riuscito a 
farlo?
La comunità di AI ci ha provato per 50 anni senza riuscirci.

— Beppe

On 9 May 2026, at 18:08, Franco Marra <[email protected]> wrote:

Credo che si possa immaginare il tutto come la formazione di un grosso fiume la 
cui acqua è portata da degli affluenti che a loro volta hanno affluenti etc la 
cui configurazione dipende dalle vallate scavate dai ghiacciai (il training), 
superfici di minimi energetici. Questo modello si capisce bene, mentre magari 
non si capisce subito l’orografia di uno specifico bacino idrografico. Infatti 
storicamente sono stati fatti molti errori disastrosi per incapacità a capire 
(più o meno colpevole): dalle alluvioni provocate dalla cementificazione degli 
alvei alla diga del Vajont, che hanno turbato equilibri consolidati con 
transizioni improvvise. E’ solo un’analogia senza particolare valore, utile 
solo a dare un’idea e a distinguere tra macro e microfenomeni. Chi mai si 
sognerebbe dopo Boltzmann a giustificare il congelamento dell’acqua sulla base 
dell’analisi puntuale del moto di ogni singola molecola? Si procede per vie 
statistiche, e da qui nasce la difficoltà di conoscere lo specifico. Almeno, 
così mi sembra. Penso anche che se imparassimo questa lezione dove le reti 
neurali sono un esempio formidabile e fossimo un pochino più umili pensando che 
forse la configurazione più probabile dell’universo è quella dei sistemi 
complessi e non quella della fisica di Lagrange, correremmo in futuro molti 
meno rischi, a partire da quelli climatici

Il giorno sab 9 mag 2026 alle 17:40 Massimo Maria Ghisalberti via nexa 
<[email protected]<mailto:[email protected]>> ha scritto:
Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha
scritto:
> È difficile capire davvero come si svolge il processo di generazione delle
> risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie,
> ossia all’uso della distribuzione di probabilità delle parole per dire che i
> modelli sono solo generatori statistici del prossimo token.
> In realtà il processo è ben più complesso, perché consiste prima di tutto
> nella costruzione di una rappresentazione a molti livelli di astrazione, del
> contesto di partenza, che include la rappresentazione del senso delle parole
> nel primo strato di embedding e poi di relazioni sintattiche tra le parole
> nelle matrici di attention a livelli superiori, poi riferimenti anaforici e
> altre relazioni che non sappiamo interpretare in altri livelli. Alcune di
> queste relazioni sono state esaminate con dei probe sui modelli, come i syntax
> probe.

Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge il
processo di generazione delle risposte tramite un LLM" vuol dire che non siamo
in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non siamo
in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più per
preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una
capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un
mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del senso
delle parole nel primo strato di embedding e a quali livelli sono queste
relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui
modelli.

Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e loro
correlazioni nelle frasi mi risultano oscuri.

m.

Reply via email to