Beppe,
ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso piano
epistemico di ciò che intende spiegare, cioè quello della correlazione, non
quello delle causalità.
La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book
of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why)

G.

On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it> wrote:

> Non solo lui, ma gran parte degli studiosi di linguistica della vecchia
> generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni.
> Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che sono
> delle applicazioni dei primi, nate inizialmente per gioco: ricorderete la
> storia degli unicorni, prodotta da GPT-2.
> Era un esercizio classico di uso dei LM per generare testo a completamento
> di un prompt.
>
> Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una
> fase di post-training, con varie tecniche, in primis il RLHF introdotto in
> ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare
> gli interlocutori.
> Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non sono
> solo per chiacchierare.
>
> Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali
> progressi:
>
> 1. Con l’aumentare della scala dei modelli, sono apparse capacità
> emergenti (emergent abilities), che vanno oltre la banale capacità di
> predire la prossima parola: un fenomeno che si spiega con la teoria dei
> sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di
> semplici funzioni di probabilità dà origine a comportamenti complessi, non
> riducibili alla funzione di partenza
> 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su
> DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1
> ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata
> per insegnare direttamente a effettuare ragionamenti matematici e logici ai
> modelli, senza bisogno di un secondo modello di critica delle risposte come
> in ChatGPT.
> 3. Le capacità apprese dai modelli di grandissime dimensioni possono
> essere “distillate” in modelli più piccoli, mantenendone le capacità
> acquisite.
>
> Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc.,
> fanno cose ben diverse dalla semplice generazione a caso di risposte.
> DeepSeek è particolarmente interessante da osservare, perché riporta nella
> risposta tutte le fasi del suo ragionamento, racchiuse tra i tag
> <think></think>, mentre gli altri modelli li tengono nascosti.
> Si vede chiaramente come svolge il suo ragionamento: propone una prima
> risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando
> come quella risposta funziona e se ci sono criticità, poi ne genera una
> seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo.
>
> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della
> Privacy che ci ha impedito l’accesso a DeepSeek.
>
> Ma è un passo avanti importante, anche perché rintuzza un’altra critica ai
> modelli ML, la mancanza di trasparenza.
> In questo caso, l’intero processo di ragionamento viene esposto, compresa
> una spiegazione in termini perfettamente comprensibili della ragione della
> risposta.
>
> — Beppe
>
>
> On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote:
>
> From: Diego Giorio <dgio...@hotmail.com>
> To: Nexa <nexa@server-nexa.polito.it>
> Subject: [nexa] Perché Richard Stallman sbaglia in tema di
> intelligenza artificiale
> Message-ID:
> <
> bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com
> >
>
> Content-Type: text/plain; charset="iso-8859-1"
>
> Ieri è stata una bellissima esperienza.
>
> A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e
> quella di questo articolo, che comunque ritengo giusto segnalare
>
> Buona giornata a tutti
>
>
>

Reply via email to