> On 16 Oct 2023, at 10:09, Guido Vetere <vetere.gu...@gmail.com> wrote:
> 
> 
> A parte la questione delle 'emergent abilities' che è alquanto controversa e 
> a me fa venire la pelle d'oca (cosa potrebbe emergere? come facciamo a 
> saperlo?) credo che la (vera) 'democratizzazione' (so to say) dei LLM sia un 
> processo già in atto, e che per trarne benefici non serva tanto denaro, ma 
> tanta volontà politica.
> 
> Ad esempio: sono convinto (su basi empiriche) che un Llama2 70B, ben 
> fine-tunato (perdonatemi!), sia già adatto a tante cose come summarization, 
> ner, topic analysis, ecc, (NB: compiti analitici, non 'stricto sensu' 
> generativi), i quali potrebbero essere utilissimi per gestire meglio i 
> sistemi informativi ad es. della PA.
Per fare queste cose semplici, bastano i word embeddings (vedi l’articolo di 
Collobert che ho citato).
È per fare tutto il resto che servono i LLM (dove Large sta, per definizione, 
oltre i 10^10 parametri).
> 
> Per mettere in esercizio e adattare un modello del genere 4M bastano e 
> avanzano, senza neanche scomodare Leonardo e Cineca. Si potrà fare? Cioè: gli 
> executive di MS, Google e Meta che finanziano le fondazioni dei politici che 
> nominano i vertici della PA saranno d'accordo?
> 
Per fare il fine tuning di Llama 2 70B, servono almeno 4 GPU Nvidia, solo per 
caricare il modello in memoria: poi si può usare LoRA per le modifiche.
Occorrono 4 giorni di elaborazione.
E un server con 4 GPU Nvidia costa intorno ai 40.000 €.

Del resto, delle due l’una: o i LLM sono insufficienti e criticati per i loro 
limiti, o persino quelli più piccoli sono meravigliosi.


— Beppe

> Scusate lo sfogo aggressivo-passivo :-)
> 
> G.
> 
>  
> 
> 
> 
> 
> 
> On Mon, 16 Oct 2023 at 05:00, Giuseppe Attardi <atta...@di.unipi.it 
> <mailto:atta...@di.unipi.it>> wrote:
>> 
>> 
>>> On 15 Oct 2023, at 12:00, nexa-requ...@server-nexa.polito.it 
>>> <mailto:nexa-requ...@server-nexa.polito.it> wrote:
>>> 
>>> Tutto questo per dirvi cosa?
>>> Che alla fine, per un informatico, il "chissà che altro" che rimanda a 
>>> qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' 
>>> vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un 
>>> LLM di qualche decina di miliardi di parametri magari solo per l'italiano è 
>>> alla portata perfino del più sgangherato dei carrozzoni pubblici italiani”.
>> 
>> Ben venga lo sviluppo di LLM alternativi.
>> Secondo me ciascuno dovrebbe avere il suo personale, calibrato sui suoi 
>> interessi e le conoscenze sui suoi campi di interesse: un po’ come ci sono 
>> tanti giornali che rappresentano diversi punti di vista.
>> 
>> C’è persino un progetto finanziato dalla CE che intende fare centinaia di 
>> LLM:
>> https://hplt-project.org/
>> 
>> Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa 
>> poco.
>> Mistral.AI, una startup francese, ha ottenuto 100 milioni di investimento e 
>> utilizza Leonardo di Cineca per sviluppare LLM:
>> https://mistral.ai/news/announcing-mistral-7b/
>> 
>> Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in 
>> risorse di calcolo.
>> 
>> Perché la questione di fondo, è quella delle “emergent abilities” che i LLM 
>> cominciano ad esibire quando superano una certa dimensione:
>>      https://www.jasonwei.net/blog/emergence
>> Ossia un modello diventa in grado di svolgere compiti per i quali non era 
>> stato allenato, come nei sistemi complessi.
>> 
>> — Beppe
>> 
>> 
>> _______________________________________________
>> nexa mailing list
>> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>
>> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to