On Fri, Mar 07, 2025 at 12:00:15PM +0100, maurizio lana wrote: > reinforcement learning è quella cosa per cui decine di migliaia di persone > in India, Filippine, Colombia, e da un po' anche in Europa, e in chissà > quanti altri paesi, lavorano sottopagate e stressate per 'insegnare' a > intelligentissimi sistemi artificiali cose che qualsiasi umano sa senza > bisogno di apprendimento formale?
In realtà quello è il Reinforcement Learning from Human Feedback (RLHF). Il reinforcement learning (RL) in se non ha alcun bisogno di feedback *umano*. Il feedback in RL storicamente viene da funzioni obiettivo misurabili. Un esempio classico è quello dell'allenamento di un IA per partecipare ad un qualche gioco: non c'è bisogno di un umano che dica se l'apprendimento sta andando nella direzione giusta o meno, basta una implementazione delle regole del gioco. Non ho verificato chi storicamente abbia inventato RLHF, ma il suo uso più notorio è abbastanza recente: nel training di ChatGPT da parte di Open AI, che non ha nulla a che vedere con i lavori di Barto e Sutton. Possiamo eventualmente deplorare il fatto che RLHF sia *citato* nella motivazione del premio come lavoro basato su RL, vedi qua https://amturing.acm.org/ , ma il premio non è per quello. Saluti -- Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CSO Software Heritage o o o o /\|^|/\ Mastodon: https://mastodon.xyz/@zacchiro '" V "'