Beppe, immagino tu lo sappia visto che parli sia di DeepSeek che di
modelli piccoli, ma nel caso (e per gli altri): DeepSeek R1 è
disponibile anche in molte altre versioni, tra cui 1.5B, 7B e 8B
parametri, tutte con pesi distribuiti sotto licenza MIT. Le dimensioni
di questi 3 modelli sono tutte sotto i 5 GiB; la prima, 1.1 GiB, gira
anche su una GPU "dei poveri" come quella parecchio vecchia che ho sul
mio laptop. Vedi qua per il dettaglio di parametri vs dimensione dei
vari modelli: https://ollama.com/library/deepseek-r1/tags .

Per quanto riguarda la democratizzazione dell'*uso* *locale* (e quindi
indipendente) di questi modelli, le barriere stanno cadendo, non c'è
dibattito. Sugli altri fronti (addestramento, dataset, etc.) è un'altra
storia, ma il gradiente è comunque quello giusto.

Ciao

On Fri, Feb 14, 2025 at 08:59:31AM +0100, Giuseppe Attardi wrote:
> 
> 
> > On 13 Feb 2025, at 13:01, Fabio Alemagna <falem...@gmail.com> wrote:
> > 
> >> [...]
> >> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della 
> >> Privacy che ci ha impedito l’accesso a DeepSeek.
> > 
> > Lo si può comunque scaricare sul proprio computer e farlo girare in locale. 
> > Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama
> 
> Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che 
> diventassero famosi e non è così semplice.
> Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: 
> solo per caricarlo ci vogliono 8 GPU da 80GB.
> Lo dicono loro stessi, nel technical report, che il modello è pesante to 
> deploy e richiederà ulteriori studi.
> 
> Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non 
> sono velocissimi.
> Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta.
> DeepSeek lascia a terze parti di offrire accesso online, perché non ce la 
> fanno.
> 
> Shameless push.
> Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e 
> abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 
> 2025 Tabular Question Answering. Ci siamo classificati secondi nella 
> categoria modelli piccoli.
> 
> > 
> > Fabio 

-- 
Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CSO Software Heritage            o o o     o       /\|^|/\
Mastodon: https://mastodon.xyz/@zacchiro                        '" V "'

Reply via email to