Re: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale

Giuseppe Attardi Fri, 14 Feb 2025 02:37:20 -0800

Regole di inferenza?

Quante probabilità ho che sia questo o quello?

Quant’è la probabilità di guarigione?

Quanto stima possa durare la riabilitazione?

Quant’è il rischio di ricadute?

È tutto un ragionare a spanne su probabilità stimate a naso.

—

On 14 Feb 2025, at 10:33, Guido Vetere <vetere.gu...@gmail.com> wrote:

Beppe,
il medico che fa una diagnosi per analogia rispetto ai casi che ha osservato, è comunque in grado di spiegare il suo ragionamento sulla base di una teoria. E anche se riproduce 'a orecchio' migliaia di dimostrazioni osservate, è (o dovrebbe essere) in grado di fornire la spiegazione sulla base di assiomi e regole di inferenza. Questo è il patto sociale quando andiamo a farci curare da un laureato in medicina piuttosto che da uno sciamano. La fisica del cervello del medico, e la sua analogia con un LLM, non c'entra nulla: la teoria medica vale in quanto 'oggetto sociale', non come 'campo di forze'.

G.

On Fri, 14 Feb 2025 at 09:13, Giuseppe Attardi <giuseppe.atta...@unipi.it> wrote:

On 14 Feb 2025, at 07:47, Guido Vetere <vetere.gu...@gmail.com> wrote:

Beppe,

ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso piano epistemico di ciò che intende spiegare, cioè quello della correlazione, non quello delle causalità.

La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why)

Certo, perché tu pensi che quando un medico ti spiega la ragione della sua diagnosi non faccia lo stesso? O un matematico ti presenta una dimostrazione senza accennare all’intuizione che l’ha portato a concepirla? Ricordi Ramanujan?

Sono tutte ricostruzioni razionali a posteriori di un processo largamente inconscio.

Se pensiamo che l’intelligenza sia solo seguire pedissequamente un procedimento algoritmico, o l’applicazione meccanica di regole logiche, abbiamo una scarsa concezione dell’intelligenza.

Del resto sbbiamo provato per 50 a riprodurla pensando che fosse così e abbiamo fallito.

—

G.

On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it> wrote:

Non solo lui, ma gran parte degli studiosi di linguistica della vecchia generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni.
Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete la storia degli unicorni, prodotta da GPT-2.

Era un esercizio classico di uso dei LM per generare testo a completamento di un prompt.

Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una fase di post-training, con varie tecniche, in primis il RLHF introdotto in ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare gli interlocutori.

Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non sono solo per chiacchierare.

Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali progressi:

1. Con l’aumentare della scala dei modelli, sono apparse capacità emergenti (emergent abilities), che vanno oltre la banale capacità di predire la prossima parola: un fenomeno che si spiega con la teoria dei sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di semplici funzioni di probabilità dà origine a comportamenti complessi, non riducibili alla funzione di partenza

2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata per insegnare direttamente a effettuare ragionamenti matematici e logici ai modelli, senza bisogno di un secondo modello di critica delle risposte come in ChatGPT.

3. Le capacità apprese dai modelli di grandissime dimensioni possono essere “distillate” in modelli più piccoli, mantenendone le capacità acquisite.

Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., fanno cose ben diverse dalla semplice generazione a caso di risposte.

DeepSeek è particolarmente interessante da osservare, perché riporta nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag <think></think>, mentre gli altri modelli li tengono nascosti.

Si vede chiaramente come svolge il suo ragionamento: propone una prima risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando come quella risposta funziona e se ci sono criticità, poi ne genera una seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo.

Questo purtroppo in Italia ci è vietato dalla decisione del Garante della Privacy che ci ha impedito l’accesso a DeepSeek.

Ma è un passo avanti importante, anche perché rintuzza un’altra critica ai modelli ML, la mancanza di trasparenza.

In questo caso, l’intero processo di ragionamento viene esposto, compresa una spiegazione in termini perfettamente comprensibili della ragione della risposta.

— Beppe

On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote:

From: Diego Giorio <dgio...@hotmail.com>
To: Nexa <nexa@server-nexa.polito.it>
Subject: [nexa] Perché Richard Stallman sbaglia in tema di
intelligenza artificiale
Message-ID:
<bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com>

Content-Type: text/plain; charset="iso-8859-1"

Ieri è stata una bellissima esperienza.

A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e quella di questo articolo, che comunque ritengo giusto segnalare

Buona giornata a tutti

Re: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale

Reply via email to