Re: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale

Giuseppe Attardi Fri, 14 Feb 2025 00:46:44 -0800


> On 13 Feb 2025, at 13:01, Fabio Alemagna <falem...@gmail.com> wrote:
>> [...]
>> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della 
>> Privacy che ci ha impedito l’accesso a DeepSeek.
> 
> Lo si può comunque scaricare sul proprio computer e farlo girare in locale. 
> Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama


Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che 
diventassero famosi e non è così semplice.
Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo 
per caricarlo ci vogliono 8 GPU da 80GB.
Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy 
e richiederà ulteriori studi.

Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non 
sono velocissimi.
Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta.
DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno.

Shameless push.
Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo 
fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular 
Question Answering. Ci siamo classificati secondi nella categoria modelli 
piccoli.

> 
> Fabio

Re: [nexa] Perché Richard Stallman sbaglia in tema di intelligenza artificiale

Reply via email to