secondo me invece è proprio sul ragionamento analogico (piuttosto che logico) che l'AI generativa incontrerà il suo più serio limite, ma vedremo per il resto sono d'accordo: questi language model ci faranno capire (anche negativamente) molte cose interessanti per esempio ci diranno cose sul linguaggio che la grammatica e la lessicografia non ci hanno ancora detto, ne parlo nel mio libro G.
On Sat, 15 Feb 2025 at 08:47, Giuseppe Attardi <atta...@di.unipi.it> wrote: > Il punto è proprio quello: il modello impara da sè la teoria e lo fa in un > modo che non è necessariamente lo stesso di come lo facciamo noi. > > Un caso eclatante è la Mossa 37 di AlphaGo contro Sedol. È stato ciò che > viene chiamato un Aha moment, ossia AlphaGo ha fatto una mossa che nessun > umano si sarebbe aspettato. > Come dice Andrei Karpathy, il RL consente slla macchina di apprendere cose > che noi non sappiamo e che quindi non potremmo insegnarle. È questa la > novità. > È per questo che non sono solo pappagalli stocastici. > Nel futuro ne vedremo sempre di più e forse saremo noi a dover imparare da > loro. > > Sono queste evoluzioni che a RMS sembrano essere sfuggite. > > Per illustrare il processo, meglio dei miei due esempi, eccovi un > riassunto visuale del funzionamento dei modelli che ragionano: > > > https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms > > — > > On 14 Feb 2025, at 19:07, Guido Vetere <vetere.gu...@gmail.com> wrote: > > > molto interessante, grazie, ma secondo me è un esempio che depone contro > la tua tesi :-) > se conosci la semantica dei numeri e degli operatori, non ti serve alcun > tipo di apprendimento da esempi: L uguale o più grande di F, ed F è uguale > o più grande di V, quindi L è uguale o più grande di V. i bambini delle > elementari lo intuiscono geometricamente a prima vista > il motivo per cui devi ricorrere a esempi e rinforzi è proprio il fatto > che la rete neurale non ragiona con la semantica del problema, come invece > facciamo noi, anche intuitivamente > non ti far ingannare dal fatto che la macchina dice cose del tipo: > >> F is at least as much as V (F ≥ V), so the relation between F and V is F >> is greater than or equal to V. > > perché quelle sono frasi prodotte non su base semantica, ma per imitazione > di frasi analoghe a quelle osservate nel training > ora non ripetere che 'con la semantica non si sono risolti i problemi, > smucinando coi dati invece sì' perché questo può anche essere > contingentemente vero, ma non prova nulla > > buona serata, > G. > > > > On Fri, 14 Feb 2025 at 18:26, Giuseppe Attardi <atta...@di.unipi.it> > wrote: > >> Il modello DeepSeek R1 è stato addestrato a “svolgere ragionamenti" con >> un SFT+RL su esempi di ragionamenti logico matematici: è quindi qualcosa di >> diverso da un semplice LLM. >> Quando si insegna la matematica, un insegnante presenta la teoria (1), >> poi mostra la soluzione di alcuni esercizi (2) e poi sottopone gli studenti >> a degli esercizi (3) per vedere se hanno capito. >> Nel training di modelli con STF+RL si fa qualcosa di simile: >> 1 è il training del LLM, acquisizione della conoscenza di base >> 2 è il SFT+RL >> 3 sono i benchmark di valutazione >> >> Provo ad illustrarlo con un esempio, per uscire dalla disquisizione >> astratta di cosa sia “ragionare”, “comprendere”, ecc. termini antropomorfi >> che non sono necessariamente applicabili al caso. >> >> Prompt: “In the following question assuming the given statements to be >> true, find which of the conclusion among the given conclusions is/are >> definitely true." >> >> Statements: >> H > F ≤ O ≤ L; F ≥ V < D >> >> Conclusions: >> I. L ≥ V >> II. O > D >> >> The options are: >> >> A. Only I is true >> B. Only II is true >> C. Both I and II are true >> D. Either I or II is true >> E. Neither I nor II is true.” >> >> Response by o3: >> >> To solve this problem, let's first clarify the given statements and their >> implications: >> 1. H > F≤ O≤L >> 2. F≥V< D >> We need to evaluate the given conclusions: >> I. L≥ V >> II. O > D >> Let's analyze each conclusion: >> >> Conclusion I: L ≥ V >> From the statements: >> • F is at least as much as V (F ≥ V), so the relation between F and V is >> F is greater than or equal to V. >> • L is at least as much as O (O ≤ L), and since F <= 0 <= L, we can say >> F <= L. >> • So we have F ≥ V and L ≥ O. >> Combining all, F ≥ V and L ≥ F leads to L ≥ V. >> >> Therefore, Conclusion I: L ≥ V is definitely true. >> >> Conclusion II: 0 > D >> From the statements: >> • F ≤ O, so O is greater or equal to F. >> • D is greater then V (V< D), and we know from the statements F is >> greater than or equal to V (F ≥ V) >> >> However, without definite numerical value or direct inequality >> comparisons between O and D, we cannot ascertain that O is greater than D. >> Conclusion II: O > D is not definitely true based on the given >> information. >> >> Thus, the answer is: >> A. Only l is true >> ----- >> >> Ecco un altro esempio dai miei esperimenti sulla generazione di codice >> per interrogare tabelle. >> >> Question: Does the author with the longest name post mainly original >> content? >> <think> >> To determine if the author with the longest name posts mainly original >> content, we need to: >> >> 1. Identify the author with the longest author_name. >> 2. Check if this author's type is 'original'. >> 3. Verify if the majority of their posts are original. >> >> Here's the Python function using pandas to perform these steps: >> ... >> Wait, maybe the problem is that when you group by 'author_name' and then >> use 'agg('max')', it's trying to compute the max for each group, but if >> 'author_name' is a Categorical, it's not ordered, so the max function >> doesn't know which one is the maximum. >> So, converting 'author_name' to a string type before grouping would solve >> the issue. >> So, the function would be: >> ... >> But again, the problem is that after grouping, the index is reset, so >> when you try to filter `original_posts`, it might not have the same index >> as `max_author`. >> >> Wait, no. The `max_author` is the name of the author with the longest >> name, and `original_posts` is a DataFrame filtered to only include >> 'original' type posts. Then, `max_author_original` is a subset of >> `original_posts` where the 'author_name' is equal to `max_author`. >> This should work because `max_author` is a string, and it's looking for >> that string in the 'author_name' column of `original_posts`. >> So, the function should correctly return whether the author with the >> longest name posts mainly original content. >> >> … >> Wait, that's a problem. >> So, the function needs to handle the case where there are no original >> posts. >> In that case, the function should return False, because the author with >> the longest name does not post original content. >> But in the current code, if `original_posts` is empty, >> `max_author_original` would also be empty, and accessing >> `max_author_original['type']` would throw an error. >> So, to fix this, we need to check if `max_author_original` is not empty >> before accessing its 'type' column. >> So, the function should be modified to: >> … >> >> >> >> On 14 Feb 2025, at 07:47, Guido Vetere <vetere.gu...@gmail.com> wrote: >> >> Beppe, >> ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso >> piano epistemico di ciò che intende spiegare, cioè quello della >> correlazione, non quello delle causalità. >> La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book >> of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why) >> >> G. >> >> On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it> >> wrote: >> >>> Non solo lui, ma gran parte degli studiosi di linguistica della vecchia >>> generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni. >>> Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che >>> sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete >>> la storia degli unicorni, prodotta da GPT-2. >>> Era un esercizio classico di uso dei LM per generare testo a >>> completamento di un prompt. >>> >>> Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con >>> una fase di post-training, con varie tecniche, in primis il RLHF introdotto >>> in ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare >>> gli interlocutori. >>> Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non >>> sono solo per chiacchierare. >>> >>> Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali >>> progressi: >>> >>> 1. Con l’aumentare della scala dei modelli, sono apparse capacità >>> emergenti (emergent abilities), che vanno oltre la banale capacità di >>> predire la prossima parola: un fenomeno che si spiega con la teoria dei >>> sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di >>> semplici funzioni di probabilità dà origine a comportamenti complessi, non >>> riducibili alla funzione di partenza >>> 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su >>> DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 >>> ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata >>> per insegnare direttamente a effettuare ragionamenti matematici e logici ai >>> modelli, senza bisogno di un secondo modello di critica delle risposte come >>> in ChatGPT. >>> 3. Le capacità apprese dai modelli di grandissime dimensioni possono >>> essere “distillate” in modelli più piccoli, mantenendone le capacità >>> acquisite. >>> >>> Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., >>> fanno cose ben diverse dalla semplice generazione a caso di risposte. >>> DeepSeek è particolarmente interessante da osservare, perché riporta >>> nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag >>> <think></think>, mentre gli altri modelli li tengono nascosti. >>> Si vede chiaramente come svolge il suo ragionamento: propone una prima >>> risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando >>> come quella risposta funziona e se ci sono criticità, poi ne genera una >>> seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo. >>> >>> Questo purtroppo in Italia ci è vietato dalla decisione del Garante >>> della Privacy che ci ha impedito l’accesso a DeepSeek. >>> >>> Ma è un passo avanti importante, anche perché rintuzza un’altra critica >>> ai modelli ML, la mancanza di trasparenza. >>> In questo caso, l’intero processo di ragionamento viene esposto, >>> compresa una spiegazione in termini perfettamente comprensibili della >>> ragione della risposta. >>> >>> — Beppe >>> >>> >>> On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote: >>> >>> From: Diego Giorio <dgio...@hotmail.com> >>> To: Nexa <nexa@server-nexa.polito.it> >>> Subject: [nexa] Perché Richard Stallman sbaglia in tema di >>> intelligenza artificiale >>> Message-ID: >>> < >>> bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com >>> > >>> >>> Content-Type: text/plain; charset="iso-8859-1" >>> >>> Ieri è stata una bellissima esperienza. >>> >>> A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e >>> quella di questo articolo, che comunque ritengo giusto segnalare >>> >>> Buona giornata a tutti >>> >>> >>> >>