Beppe, il medico che fa una diagnosi per analogia rispetto ai casi che ha osservato, è comunque in grado di spiegare il suo ragionamento sulla base di una teoria. E anche se riproduce 'a orecchio' migliaia di dimostrazioni osservate, è (o dovrebbe essere) in grado di fornire la spiegazione sulla base di assiomi e regole di inferenza. Questo è il patto sociale quando andiamo a farci curare da un laureato in medicina piuttosto che da uno sciamano. La fisica del cervello del medico, e la sua analogia con un LLM, non c'entra nulla: la teoria medica vale in quanto 'oggetto sociale', non come 'campo di forze'.
G. On Fri, 14 Feb 2025 at 09:13, Giuseppe Attardi <giuseppe.atta...@unipi.it> wrote: > > > On 14 Feb 2025, at 07:47, Guido Vetere <vetere.gu...@gmail.com> wrote: > > > Beppe, > ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso > piano epistemico di ciò che intende spiegare, cioè quello della > correlazione, non quello delle causalità. > La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book > of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why) > > Certo, perché tu pensi che quando un medico ti spiega la ragione della sua > diagnosi non faccia lo stesso? O un matematico ti presenta una > dimostrazione senza accennare all’intuizione che l’ha portato a concepirla? > Ricordi Ramanujan? > Sono tutte ricostruzioni razionali a posteriori di un processo largamente > inconscio. > > Se pensiamo che l’intelligenza sia solo seguire pedissequamente un > procedimento algoritmico, o l’applicazione meccanica di regole logiche, > abbiamo una scarsa concezione dell’intelligenza. > Del resto sbbiamo provato per 50 a riprodurla pensando che fosse così e > abbiamo fallito. > > — > > G. > > On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it> > wrote: > >> Non solo lui, ma gran parte degli studiosi di linguistica della vecchia >> generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni. >> Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che >> sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete >> la storia degli unicorni, prodotta da GPT-2. >> Era un esercizio classico di uso dei LM per generare testo a >> completamento di un prompt. >> >> Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una >> fase di post-training, con varie tecniche, in primis il RLHF introdotto in >> ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare >> gli interlocutori. >> Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non >> sono solo per chiacchierare. >> >> Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali >> progressi: >> >> 1. Con l’aumentare della scala dei modelli, sono apparse capacità >> emergenti (emergent abilities), che vanno oltre la banale capacità di >> predire la prossima parola: un fenomeno che si spiega con la teoria dei >> sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di >> semplici funzioni di probabilità dà origine a comportamenti complessi, non >> riducibili alla funzione di partenza >> 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su >> DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 >> ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata >> per insegnare direttamente a effettuare ragionamenti matematici e logici ai >> modelli, senza bisogno di un secondo modello di critica delle risposte come >> in ChatGPT. >> 3. Le capacità apprese dai modelli di grandissime dimensioni possono >> essere “distillate” in modelli più piccoli, mantenendone le capacità >> acquisite. >> >> Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., >> fanno cose ben diverse dalla semplice generazione a caso di risposte. >> DeepSeek è particolarmente interessante da osservare, perché riporta >> nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag >> <think></think>, mentre gli altri modelli li tengono nascosti. >> Si vede chiaramente come svolge il suo ragionamento: propone una prima >> risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando >> come quella risposta funziona e se ci sono criticità, poi ne genera una >> seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo. >> >> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della >> Privacy che ci ha impedito l’accesso a DeepSeek. >> >> Ma è un passo avanti importante, anche perché rintuzza un’altra critica >> ai modelli ML, la mancanza di trasparenza. >> In questo caso, l’intero processo di ragionamento viene esposto, compresa >> una spiegazione in termini perfettamente comprensibili della ragione della >> risposta. >> >> — Beppe >> >> >> On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote: >> >> From: Diego Giorio <dgio...@hotmail.com> >> To: Nexa <nexa@server-nexa.polito.it> >> Subject: [nexa] Perché Richard Stallman sbaglia in tema di >> intelligenza artificiale >> Message-ID: >> < >> bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com >> > >> >> Content-Type: text/plain; charset="iso-8859-1" >> >> Ieri è stata una bellissima esperienza. >> >> A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e >> quella di questo articolo, che comunque ritengo giusto segnalare >> >> Buona giornata a tutti >> >> >>