Beppe,
il medico che fa una diagnosi per analogia rispetto ai casi che ha
osservato, è comunque in grado di spiegare il suo ragionamento sulla base
di una teoria. E anche se riproduce 'a orecchio' migliaia di dimostrazioni
osservate, è (o dovrebbe essere) in grado di fornire la spiegazione sulla
base di assiomi e regole di inferenza. Questo è il patto sociale quando
andiamo a farci curare da un laureato in medicina piuttosto che da uno
sciamano. La fisica del cervello del medico, e la sua analogia con un LLM,
non c'entra nulla: la teoria medica vale in quanto 'oggetto sociale', non
come 'campo di forze'.

G.

On Fri, 14 Feb 2025 at 09:13, Giuseppe Attardi <giuseppe.atta...@unipi.it>
wrote:

>
>
> On 14 Feb 2025, at 07:47, Guido Vetere <vetere.gu...@gmail.com> wrote:
>
> 
> Beppe,
> ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso
> piano epistemico di ciò che intende spiegare, cioè quello della
> correlazione, non quello delle causalità.
> La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book
> of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why)
>
> Certo, perché tu pensi che quando un medico ti spiega la ragione della sua
> diagnosi non faccia lo stesso? O un matematico ti presenta una
> dimostrazione senza accennare all’intuizione che l’ha portato a concepirla?
> Ricordi Ramanujan?
> Sono tutte ricostruzioni razionali a posteriori di un processo largamente
> inconscio.
>
> Se pensiamo che l’intelligenza sia solo seguire pedissequamente un
> procedimento algoritmico, o l’applicazione meccanica di regole logiche,
> abbiamo una scarsa concezione dell’intelligenza.
> Del resto sbbiamo provato per 50 a riprodurla pensando che fosse così e
> abbiamo fallito.
>
> —
>
> G.
>
> On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it>
> wrote:
>
>> Non solo lui, ma gran parte degli studiosi di linguistica della vecchia
>> generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni.
>> Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che
>> sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete
>> la storia degli unicorni, prodotta da GPT-2.
>> Era un esercizio classico di uso dei LM per generare testo a
>> completamento di un prompt.
>>
>> Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una
>> fase di post-training, con varie tecniche, in primis il RLHF introdotto in
>> ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare
>> gli interlocutori.
>> Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non
>> sono solo per chiacchierare.
>>
>> Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali
>> progressi:
>>
>> 1. Con l’aumentare della scala dei modelli, sono apparse capacità
>> emergenti (emergent abilities), che vanno oltre la banale capacità di
>> predire la prossima parola: un fenomeno che si spiega con la teoria dei
>> sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di
>> semplici funzioni di probabilità dà origine a comportamenti complessi, non
>> riducibili alla funzione di partenza
>> 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su
>> DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1
>> ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata
>> per insegnare direttamente a effettuare ragionamenti matematici e logici ai
>> modelli, senza bisogno di un secondo modello di critica delle risposte come
>> in ChatGPT.
>> 3. Le capacità apprese dai modelli di grandissime dimensioni possono
>> essere “distillate” in modelli più piccoli, mantenendone le capacità
>> acquisite.
>>
>> Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc.,
>> fanno cose ben diverse dalla semplice generazione a caso di risposte.
>> DeepSeek è particolarmente interessante da osservare, perché riporta
>> nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag
>> <think></think>, mentre gli altri modelli li tengono nascosti.
>> Si vede chiaramente come svolge il suo ragionamento: propone una prima
>> risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando
>> come quella risposta funziona e se ci sono criticità, poi ne genera una
>> seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo.
>>
>> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della
>> Privacy che ci ha impedito l’accesso a DeepSeek.
>>
>> Ma è un passo avanti importante, anche perché rintuzza un’altra critica
>> ai modelli ML, la mancanza di trasparenza.
>> In questo caso, l’intero processo di ragionamento viene esposto, compresa
>> una spiegazione in termini perfettamente comprensibili della ragione della
>> risposta.
>>
>> — Beppe
>>
>>
>> On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote:
>>
>> From: Diego Giorio <dgio...@hotmail.com>
>> To: Nexa <nexa@server-nexa.polito.it>
>> Subject: [nexa] Perché Richard Stallman sbaglia in tema di
>> intelligenza artificiale
>> Message-ID:
>> <
>> bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com
>> >
>>
>> Content-Type: text/plain; charset="iso-8859-1"
>>
>> Ieri è stata una bellissima esperienza.
>>
>> A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e
>> quella di questo articolo, che comunque ritengo giusto segnalare
>>
>> Buona giornata a tutti
>>
>>
>>

Reply via email to