Molto carino: usiamo un chatbot come giudice terzo. Devo dire che mi pare che il chatbot non mi smentisca. Le principali critiche sono sul fatto che certe affermazioni siano troppo assolute, che è abbastanza normale in un dibattito via mail dove non si possono fare distinguo troppo sottili.
Ma alcune di quelle critiche in realtà sono a loro volta imprecise: - se dico che sono coinvolti milioni di parametri e non miliardi è perché durante le inferenze nei modelli MoE, solo una parte dei parametri viene attivato. Comunque se fossero di più rafforza la mia affermazione. - le funzioni di attivazione come softmax e tanh che cita non sono lineari - ammette che il riduzionismo sia “difficile e incompleto” quindi nessuno è riuscito ad attuarlo - il riferimento a Giorgio Parisi non è casuale, ne ho parlato con lui ed ha ammesso che considerare i LLM come dei sistemi complessi sia una “idea bellissima”. Certamente è un’idea da approfondire. Nella seconda parte invece prende un abbaglio: 2. **"50 anni senza riuscirci" è una semplificazione.** Il deep learning esiste dagli anni '80 (backpropagation di Rumelhart, 1986). I LLM non sono una rottura Io mi riferivo all’AI simbolica, non al DL! — Beppe > On 9 May 2026, at 17:37, Massimo Maria Ghisalberti <[email protected]> wrote: > > Il giorno sab, 09/05/2026 alle 12.24 +0000, Giuseppe Attardi via nexa ha > scritto: >> È difficile capire davvero come si svolge il processo di generazione delle >> risposte tramite un LLM, ma non bisogna limitarsi a guardare alla superficie, >> ossia all’uso della distribuzione di probabilità delle parole per dire che i >> modelli sono solo generatori statistici del prossimo token. >> In realtà il processo è ben più complesso, perché consiste prima di tutto >> nella costruzione di una rappresentazione a molti livelli di astrazione, del >> contesto di partenza, che include la rappresentazione del senso delle parole >> nel primo strato di embedding e poi di relazioni sintattiche tra le parole >> nelle matrici di attention a livelli superiori, poi riferimenti anaforici e >> altre relazioni che non sappiamo interpretare in altri livelli. Alcune di >> queste relazioni sono state esaminate con dei probe sui modelli, come i >> syntax >> probe. > > Mi scusi, ma mi faccia capire. Con "È difficile capire davvero come si svolge > il > processo di generazione delle risposte tramite un LLM" vuol dire che non siamo > in grado di farlo? Cioè che noi, che abbiamo progettato tale macchina, non > siamo > in grado di capirla? Se fosse così non crede che ci sarebbe un motivo in più > per > preoccuparsi? Insomma vorrebbe dire che hanno una identità propria e una > capacità cognitivo-semantica a noi aliena e per dirla breve "abbiamo creato un > mostro". Poi vorrei anche capire cosa significhi: la rappresentazione del > senso > delle parole nel primo strato di embedding e a quali livelli sono queste > relazioni anaforiche. Lascerei per ora le matrici di attention e i probe sui > modelli. > > Non voglio essere irrispettoso ma essendo fuori dal gergo alcuni termini e > loro > correlazioni nelle frasi mi risultano oscuri. > > m.
