Ciao Giuseppe,
On Thu, 14 May 2026 11:45:37 +0000 Giuseppe Attardi wrote:
> In altri termini, ci sono indizi per ritenere che i modelli
> costruiscano una rappresentazione della conoscenza acquisita dai
> testi, compresa una forma di word model (David Chalmers fa l’esempio
> di un modello che risponde sui percorsi della metro di NY), astratta
> e indipendente dal processo di generazione di risposte un token alla
> volta. Questo è un effetto secondario del processo di ottimizzazione
> durante l’apprendimentonto.
Scusa ma non mi è chiaro cosa ci sia di sorprendente nel fatto che
diverse zone (sparse) delle matrici che costituiscono il software
eseguito dal "motore inferenziale" codifichino sequenze di token (non
token, ma _sequenze_ di token) fra loro affini.
E' chiaro _almeno_ dall'articolo di Google del 2017 [1] che la
compressione statistica del testo operata dal LLM non si basa sul
singolo token ma sulle relazioni statistiche delle sequenze che entrano
nella context window nel loro complesso.
Per questo nella definizione che hai definito semplicistica [2] avevo
scritto "sono archivi compressi con perdita di sequenze testuali di
cui è possibile decomprimere _approssimazioni_di_alcune_zone_ fornendo
in input una sequenza testuale prossima a quelle presenti nei testi
sorgente".
Le zone di attivazione non rappresentano "conoscenza acquisita", o
"rappresentazioni astratte", bensì sequenze di token che si comprimono
meglio insieme rispetto che separatamente.
In altri termini, non si tratta di "un effetto secondario del processo
di ottimizzazione durante l’apprendimentonto", ma del meccanismo di
funzionamento del processo di compressione con perdita di _sequenze_
di token in atto.
Giacomo
[1] non credo sia necessario citarlo esplicitamente, ma comunque è qui
https://en.wikipedia.org/wiki/Attention_Is_All_You_Need