Il giorno gio 13 feb 2025 alle ore 12:36 Giuseppe Attardi <
atta...@di.unipi.it> ha scritto:

> [...]
> 2. Si sono raffinate le tecniche di post-processing: SFT e RL basato su
> DPO (Direct Preference Optimizazion) o GRPO (quella usata da DeepSeek R1
> ecc.) Quest’ultima tecnica accelera l’apprendimento con RL e viene usata
> per insegnare direttamente a effettuare ragionamenti matematici e logici ai
> modelli, senza bisogno di un secondo modello di critica delle risposte come
> in ChatGPT.
>

Qualche giorno fa ho postato nella lista l'abstract e link a uno studio che
mostra come gli LLM "capiscono" la matematica: usando la trigonometria, che
comunque nessuno gli ha insegnato.
https://server-nexa.polito.it/pipermail/nexa/2025-February/054015.html

[...]
> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della
> Privacy che ci ha impedito l’accesso a DeepSeek.
>

Lo si può comunque scaricare sul proprio computer e farlo girare in locale.
Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama

Fabio

Reply via email to