Re: [nexa] Turing Award

Stefano Zacchiroli Fri, 07 Mar 2025 04:54:14 -0800

On Fri, Mar 07, 2025 at 12:00:15PM +0100, maurizio lana wrote:
> reinforcement learning è quella cosa per cui decine di migliaia di persone
> in India, Filippine, Colombia, e da un po' anche in Europa, e in chissà
> quanti altri paesi, lavorano sottopagate e stressate per 'insegnare' a
> intelligentissimi sistemi artificiali cose che qualsiasi umano sa senza
> bisogno di apprendimento formale?


In realtà quello è il Reinforcement Learning from Human Feedback
(RLHF). Il reinforcement learning (RL) in se non ha alcun bisogno di
feedback *umano*. Il feedback in RL storicamente viene da funzioni
obiettivo misurabili. Un esempio classico è quello dell'allenamento di
un IA per partecipare ad un qualche gioco: non c'è bisogno di un umano
che dica se l'apprendimento sta andando nella direzione giusta o meno,
basta una implementazione delle regole del gioco.

Non ho verificato chi storicamente abbia inventato RLHF, ma il suo uso
più notorio è abbastanza recente: nel training di ChatGPT da parte di
Open AI, che non ha nulla a che vedere con i lavori di Barto e Sutton.

Possiamo eventualmente deplorare il fatto che RLHF sia *citato* nella
motivazione del premio come lavoro basato su RL, vedi qua
https://amturing.acm.org/ , ma il premio non è per quello.

Saluti
-- 
Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CSO Software Heritage            o o o     o       /\|^|/\
Mastodon: https://mastodon.xyz/@zacchiro                        '" V "'

Re: [nexa] Turing Award

Reply via email to