Beppe, ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso piano epistemico di ciò che intende spiegare, cioè quello della correlazione, non quello delle causalità. La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why)
G. On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it> wrote: > Non solo lui, ma gran parte degli studiosi di linguistica della vecchia > generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni. > Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che sono > delle applicazioni dei primi, nate inizialmente per gioco: ricorderete la > storia degli unicorni, prodotta da GPT-2. > Era un esercizio classico di uso dei LM per generare testo a completamento > di un prompt. > > Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una > fase di post-training, con varie tecniche, in primis il RLHF introdotto in > ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare > gli interlocutori. > Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non sono > solo per chiacchierare. > > Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali > progressi: > > 1. Con l’aumentare della scala dei modelli, sono apparse capacità > emergenti (emergent abilities), che vanno oltre la banale capacità di > predire la prossima parola: un fenomeno che si spiega con la teoria dei > sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di > semplici funzioni di probabilità dà origine a comportamenti complessi, non > riducibili alla funzione di partenza > 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su > DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 > ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata > per insegnare direttamente a effettuare ragionamenti matematici e logici ai > modelli, senza bisogno di un secondo modello di critica delle risposte come > in ChatGPT. > 3. Le capacità apprese dai modelli di grandissime dimensioni possono > essere “distillate” in modelli più piccoli, mantenendone le capacità > acquisite. > > Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., > fanno cose ben diverse dalla semplice generazione a caso di risposte. > DeepSeek è particolarmente interessante da osservare, perché riporta nella > risposta tutte le fasi del suo ragionamento, racchiuse tra i tag > <think></think>, mentre gli altri modelli li tengono nascosti. > Si vede chiaramente come svolge il suo ragionamento: propone una prima > risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando > come quella risposta funziona e se ci sono criticità, poi ne genera una > seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo. > > Questo purtroppo in Italia ci è vietato dalla decisione del Garante della > Privacy che ci ha impedito l’accesso a DeepSeek. > > Ma è un passo avanti importante, anche perché rintuzza un’altra critica ai > modelli ML, la mancanza di trasparenza. > In questo caso, l’intero processo di ragionamento viene esposto, compresa > una spiegazione in termini perfettamente comprensibili della ragione della > risposta. > > — Beppe > > > On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote: > > From: Diego Giorio <dgio...@hotmail.com> > To: Nexa <nexa@server-nexa.polito.it> > Subject: [nexa] Perché Richard Stallman sbaglia in tema di > intelligenza artificiale > Message-ID: > < > bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com > > > > Content-Type: text/plain; charset="iso-8859-1" > > Ieri è stata una bellissima esperienza. > > A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e > quella di questo articolo, che comunque ritengo giusto segnalare > > Buona giornata a tutti > > >