molto interessante, grazie, ma secondo me è un esempio che depone contro la tua tesi :-) se conosci la semantica dei numeri e degli operatori, non ti serve alcun tipo di apprendimento da esempi: L uguale o più grande di F, ed F è uguale o più grande di V, quindi L è uguale o più grande di V. i bambini delle elementari lo intuiscono geometricamente a prima vista il motivo per cui devi ricorrere a esempi e rinforzi è proprio il fatto che la rete neurale non ragiona con la semantica del problema, come invece facciamo noi, anche intuitivamente non ti far ingannare dal fatto che la macchina dice cose del tipo:
> F is at least as much as V (F ≥ V), so the relation between F and V is F > is greater than or equal to V. perché quelle sono frasi prodotte non su base semantica, ma per imitazione di frasi analoghe a quelle osservate nel training ora non ripetere che 'con la semantica non si sono risolti i problemi, smucinando coi dati invece sì' perché questo può anche essere contingentemente vero, ma non prova nulla buona serata, G. On Fri, 14 Feb 2025 at 18:26, Giuseppe Attardi <atta...@di.unipi.it> wrote: > Il modello DeepSeek R1 è stato addestrato a “svolgere ragionamenti" con un > SFT+RL su esempi di ragionamenti logico matematici: è quindi qualcosa di > diverso da un semplice LLM. > Quando si insegna la matematica, un insegnante presenta la teoria (1), poi > mostra la soluzione di alcuni esercizi (2) e poi sottopone gli studenti a > degli esercizi (3) per vedere se hanno capito. > Nel training di modelli con STF+RL si fa qualcosa di simile: > 1 è il training del LLM, acquisizione della conoscenza di base > 2 è il SFT+RL > 3 sono i benchmark di valutazione > > Provo ad illustrarlo con un esempio, per uscire dalla disquisizione > astratta di cosa sia “ragionare”, “comprendere”, ecc. termini antropomorfi > che non sono necessariamente applicabili al caso. > > Prompt: “In the following question assuming the given statements to be > true, find which of the conclusion among the given conclusions is/are > definitely true." > > Statements: > H > F ≤ O ≤ L; F ≥ V < D > > Conclusions: > I. L ≥ V > II. O > D > > The options are: > > A. Only I is true > B. Only II is true > C. Both I and II are true > D. Either I or II is true > E. Neither I nor II is true.” > > Response by o3: > > To solve this problem, let's first clarify the given statements and their > implications: > 1. H > F≤ O≤L > 2. F≥V< D > We need to evaluate the given conclusions: > I. L≥ V > II. O > D > Let's analyze each conclusion: > > Conclusion I: L ≥ V > From the statements: > • F is at least as much as V (F ≥ V), so the relation between F and V is > F is greater than or equal to V. > • L is at least as much as O (O ≤ L), and since F <= 0 <= L, we can say F > <= L. > • So we have F ≥ V and L ≥ O. > Combining all, F ≥ V and L ≥ F leads to L ≥ V. > > Therefore, Conclusion I: L ≥ V is definitely true. > > Conclusion II: 0 > D > From the statements: > • F ≤ O, so O is greater or equal to F. > • D is greater then V (V< D), and we know from the statements F is > greater than or equal to V (F ≥ V) > > However, without definite numerical value or direct inequality comparisons > between O and D, we cannot ascertain that O is greater than D. > Conclusion II: O > D is not definitely true based on the given information. > > Thus, the answer is: > A. Only l is true > ----- > > Ecco un altro esempio dai miei esperimenti sulla generazione di codice per > interrogare tabelle. > > Question: Does the author with the longest name post mainly original > content? > <think> > To determine if the author with the longest name posts mainly original > content, we need to: > > 1. Identify the author with the longest author_name. > 2. Check if this author's type is 'original'. > 3. Verify if the majority of their posts are original. > > Here's the Python function using pandas to perform these steps: > ... > Wait, maybe the problem is that when you group by 'author_name' and then > use 'agg('max')', it's trying to compute the max for each group, but if > 'author_name' is a Categorical, it's not ordered, so the max function > doesn't know which one is the maximum. > So, converting 'author_name' to a string type before grouping would solve > the issue. > So, the function would be: > ... > But again, the problem is that after grouping, the index is reset, so when > you try to filter `original_posts`, it might not have the same index as > `max_author`. > > Wait, no. The `max_author` is the name of the author with the longest > name, and `original_posts` is a DataFrame filtered to only include > 'original' type posts. Then, `max_author_original` is a subset of > `original_posts` where the 'author_name' is equal to `max_author`. > This should work because `max_author` is a string, and it's looking for > that string in the 'author_name' column of `original_posts`. > So, the function should correctly return whether the author with the > longest name posts mainly original content. > > … > Wait, that's a problem. > So, the function needs to handle the case where there are no original > posts. > In that case, the function should return False, because the author with > the longest name does not post original content. > But in the current code, if `original_posts` is empty, > `max_author_original` would also be empty, and accessing > `max_author_original['type']` would throw an error. > So, to fix this, we need to check if `max_author_original` is not empty > before accessing its 'type' column. > So, the function should be modified to: > … > > > > On 14 Feb 2025, at 07:47, Guido Vetere <vetere.gu...@gmail.com> wrote: > > Beppe, > ma la "spiegazione" della c.d. chain-of-thought si trova sullo stesso > piano epistemico di ciò che intende spiegare, cioè quello della > correlazione, non quello delle causalità. > La differenza è 'striking' e la spiega bene Judea Pearl nel suo "The Book > of Why" (https://en.wikipedia.org/wiki/The_Book_of_Why) > > G. > > On Thu, 13 Feb 2025 at 12:36, Giuseppe Attardi <atta...@di.unipi.it> > wrote: > >> Non solo lui, ma gran parte degli studiosi di linguistica della vecchia >> generazione, a partire da Noam Chomsky, sono rimasti indietro di 8 anni. >> Non solo, ma non comprendono la differenza tra i LLM e i chatbot, che >> sono delle applicazioni dei primi, nate inizialmente per gioco: ricorderete >> la storia degli unicorni, prodotta da GPT-2. >> Era un esercizio classico di uso dei LM per generare testo a >> completamento di un prompt. >> >> Ma I chatbot sono un’applicazione specializzata dei LLM, allenata con una >> fase di post-training, con varie tecniche, in primis il RLHF introdotto in >> ChatGPT, per addestrarlo a partecipare a dialoghi, ossia ad accontentare >> gli interlocutori. >> Ma oltre ai chatbot, ci sono mille altre applicazioni dei LLM che non >> sono solo per chiacchierare. >> >> Da allora, la tecnica si è poi ulteriormente evoluta con tre sostanziali >> progressi: >> >> 1. Con l’aumentare della scala dei modelli, sono apparse capacità >> emergenti (emergent abilities), che vanno oltre la banale capacità di >> predire la prossima parola: un fenomeno che si spiega con la teoria dei >> sitemi complessi di Giorgio Parisi: l’applicazione su larga scala di >> semplici funzioni di probabilità dà origine a comportamenti complessi, non >> riducibili alla funzione di partenza >> 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su >> DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 >> ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata >> per insegnare direttamente a effettuare ragionamenti matematici e logici ai >> modelli, senza bisogno di un secondo modello di critica delle risposte come >> in ChatGPT. >> 3. Le capacità apprese dai modelli di grandissime dimensioni possono >> essere “distillate” in modelli più piccoli, mantenendone le capacità >> acquisite. >> >> Quindi i modelli attuali, come GPT-4 o3, DeepSeek R1, Gemini 2.0, ecc., >> fanno cose ben diverse dalla semplice generazione a caso di risposte. >> DeepSeek è particolarmente interessante da osservare, perché riporta >> nella risposta tutte le fasi del suo ragionamento, racchiuse tra i tag >> <think></think>, mentre gli altri modelli li tengono nascosti. >> Si vede chiaramente come svolge il suo ragionamento: propone una prima >> risposta, poi la valuta criticamente, dicendo: “Ah wait. …” e spiegando >> come quella risposta funziona e se ci sono criticità, poi ne genera una >> seconda che risolve quelle criticità e poi ci ragiona sopra di nuovo. >> >> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della >> Privacy che ci ha impedito l’accesso a DeepSeek. >> >> Ma è un passo avanti importante, anche perché rintuzza un’altra critica >> ai modelli ML, la mancanza di trasparenza. >> In questo caso, l’intero processo di ragionamento viene esposto, compresa >> una spiegazione in termini perfettamente comprensibili della ragione della >> risposta. >> >> — Beppe >> >> >> On 13 Feb 2025, at 12:00, nexa-requ...@server-nexa.polito.it wrote: >> >> From: Diego Giorio <dgio...@hotmail.com> >> To: Nexa <nexa@server-nexa.polito.it> >> Subject: [nexa] Perché Richard Stallman sbaglia in tema di >> intelligenza artificiale >> Message-ID: >> < >> bn6pr17mb3139f372ca9f7422d383438fbe...@bn6pr17mb3139.namprd17.prod.outlook.com >> > >> >> Content-Type: text/plain; charset="iso-8859-1" >> >> Ieri è stata una bellissima esperienza. >> >> A titolo personale mi pongo un po' a metà tra l'opinione di Stallman e >> quella di questo articolo, che comunque ritengo giusto segnalare >> >> Buona giornata a tutti >> >> >> >