Molto carino: usiamo un chatbot come giudice terzo.

Devo dire che mi pare che il chatbot non mi smentisca.
Le principali critiche sono sul fatto che certe affermazioni siano troppo 
assolute, che è abbastanza normale in un dibattito via mail dove non si possono 
fare distinguo troppo sottili.

Ma alcune di quelle critiche in realtà sono a loro volta imprecise:
- se dico che sono coinvolti milioni di parametri e non miliardi è perché 
durante le inferenze nei modelli MoE, solo una parte dei parametri viene 
attivato. Comunque se fossero di più rafforza la mia affermazione.
- le funzioni di attivazione come softmax e tanh che cita non sono lineari
- ammette che il riduzionismo sia “difficile e incompleto” quindi nessuno è 
riuscito ad attuarlo
- il riferimento a Giorgio Parisi non è casuale, ne ho parlato con lui ed ha 
ammesso che considerare i LLM come dei sistemi complessi sia una “idea 
bellissima”. Certamente è un’idea da approfondire.

Nella seconda parte invece prende un abbaglio:

2. **"50 anni senza riuscirci" è una semplificazione.** Il deep learning esiste
dagli anni '80 (backpropagation di Rumelhart, 1986). I LLM non sono una rottura

Io mi riferivo all’AI simbolica, non al DL!

— Beppe


> On 9 May 2026, at 17:37, Massimo Maria Ghisalberti <[email protected]> wrote:
> 
> Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha
> scritto:
>> È difficile capire davvero come si svolge il processo di generazione delle
>> risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie,
>> ossia all’uso della distribuzione di probabilità delle parole per dire che i
>> modelli sono solo generatori statistici del prossimo token.
>> In realtà il processo è ben più complesso, perché consiste prima di tutto
>> nella costruzione di una rappresentazione a molti livelli di astrazione, del
>> contesto di partenza, che include la rappresentazione del senso delle parole
>> nel primo strato di embedding e poi di relazioni sintattiche tra le parole
>> nelle matrici di attention a livelli superiori, poi riferimenti anaforici e
>> altre relazioni che non sappiamo interpretare in altri livelli. Alcune di
>> queste relazioni sono state esaminate con dei probe sui modelli, come i 
>> syntax
>> probe.
> 
> Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge 
> il
> processo di generazione delle risposte tramite un LLM" vuol dire che non siamo
> in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non 
> siamo
> in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più 
> per
> preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una
> capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un
> mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del 
> senso
> delle parole nel primo strato di embedding e a quali livelli sono queste
> relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui
> modelli. 
> 
> Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e 
> loro
> correlazioni nelle frasi mi risultano oscuri.
> 
> m.

Reply via email to