Il giorno gio 13 feb 2025 alle ore 12:36 Giuseppe Attardi < atta...@di.unipi.it> ha scritto:
> [...] > 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su > DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1 > ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata > per insegnare direttamente a effettuare ragionamenti matematici e logici ai > modelli, senza bisogno di un secondo modello di critica delle risposte come > in ChatGPT. > Qualche giorno fa ho postato nella lista l'abstract e link a uno studio che mostra come gli LLM "capiscono" la matematica: usando la trigonometria, che comunque nessuno gli ha insegnato. https://server-nexa.polito.it/pipermail/nexa/2025-February/054015.html [...] > Questo purtroppo in Italia ci è vietato dalla decisione del Garante della > Privacy che ci ha impedito l’accesso a DeepSeek. > Lo si può comunque scaricare sul proprio computer e farlo girare in locale. Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama Fabio