> On 13 Feb 2025, at 13:01, Fabio Alemagna <falem...@gmail.com> wrote: >> [...] >> Questo purtroppo in Italia ci è vietato dalla decisione del Garante della >> Privacy che ci ha impedito l’accesso a DeepSeek. > > Lo si può comunque scaricare sul proprio computer e farlo girare in locale. > Qui un tutorial: https://www.datacamp.com/tutorial/deepseek-r1-ollama
Sto sperimentando coi modelli DeepSeek da parecchio tempo, prima che diventassero famosi e non è così semplice. Il modello DeepSeek V3 ha 617B parameters, ossia occupa 1.2TB di memoria: solo per caricarlo ci vogliono 8 GPU da 80GB. Lo dicono loro stessi, nel technical report, che il modello è pesante to deploy e richiederà ulteriori studi. Si possono usare modelli più piccoli, ma le prestazioni calano e comunque non sono velocissimi. Il modello DeepSeek-Coder-33-instruct impiega circa 1 minuto a risposta. DeepSeek lascia a terze parti di offrire accesso online, perché non ce la fanno. Shameless push. Non avendo grandi risorse, siamo partiti dal più piccolo dei modelli e abbiamo fatto SFT e RL con Preference Optimization sulla challenge Semeval 2025 Tabular Question Answering. Ci siamo classificati secondi nella categoria modelli piccoli. > > Fabio