> On 16 Oct 2023, at 10:09, Guido Vetere <vetere.gu...@gmail.com> wrote: > > > A parte la questione delle 'emergent abilities' che è alquanto controversa e > a me fa venire la pelle d'oca (cosa potrebbe emergere? come facciamo a > saperlo?) credo che la (vera) 'democratizzazione' (so to say) dei LLM sia un > processo già in atto, e che per trarne benefici non serva tanto denaro, ma > tanta volontà politica. > > Ad esempio: sono convinto (su basi empiriche) che un Llama2 70B, ben > fine-tunato (perdonatemi!), sia già adatto a tante cose come summarization, > ner, topic analysis, ecc, (NB: compiti analitici, non 'stricto sensu' > generativi), i quali potrebbero essere utilissimi per gestire meglio i > sistemi informativi ad es. della PA. Per fare queste cose semplici, bastano i word embeddings (vedi l’articolo di Collobert che ho citato). È per fare tutto il resto che servono i LLM (dove Large sta, per definizione, oltre i 10^10 parametri). > > Per mettere in esercizio e adattare un modello del genere 4M bastano e > avanzano, senza neanche scomodare Leonardo e Cineca. Si potrà fare? Cioè: gli > executive di MS, Google e Meta che finanziano le fondazioni dei politici che > nominano i vertici della PA saranno d'accordo? > Per fare il fine tuning di Llama 2 70B, servono almeno 4 GPU Nvidia, solo per caricare il modello in memoria: poi si può usare LoRA per le modifiche. Occorrono 4 giorni di elaborazione. E un server con 4 GPU Nvidia costa intorno ai 40.000 €.
Del resto, delle due l’una: o i LLM sono insufficienti e criticati per i loro limiti, o persino quelli più piccoli sono meravigliosi. — Beppe > Scusate lo sfogo aggressivo-passivo :-) > > G. > > > > > > > > On Mon, 16 Oct 2023 at 05:00, Giuseppe Attardi <atta...@di.unipi.it > <mailto:atta...@di.unipi.it>> wrote: >> >> >>> On 15 Oct 2023, at 12:00, nexa-requ...@server-nexa.polito.it >>> <mailto:nexa-requ...@server-nexa.polito.it> wrote: >>> >>> Tutto questo per dirvi cosa? >>> Che alla fine, per un informatico, il "chissà che altro" che rimanda a >>> qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' >>> vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un >>> LLM di qualche decina di miliardi di parametri magari solo per l'italiano è >>> alla portata perfino del più sgangherato dei carrozzoni pubblici italiani”. >> >> Ben venga lo sviluppo di LLM alternativi. >> Secondo me ciascuno dovrebbe avere il suo personale, calibrato sui suoi >> interessi e le conoscenze sui suoi campi di interesse: un po’ come ci sono >> tanti giornali che rappresentano diversi punti di vista. >> >> C’è persino un progetto finanziato dalla CE che intende fare centinaia di >> LLM: >> https://hplt-project.org/ >> >> Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa >> poco. >> Mistral.AI, una startup francese, ha ottenuto 100 milioni di investimento e >> utilizza Leonardo di Cineca per sviluppare LLM: >> https://mistral.ai/news/announcing-mistral-7b/ >> >> Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in >> risorse di calcolo. >> >> Perché la questione di fondo, è quella delle “emergent abilities” che i LLM >> cominciano ad esibire quando superano una certa dimensione: >> https://www.jasonwei.net/blog/emergence >> Ossia un modello diventa in grado di svolgere compiti per i quali non era >> stato allenato, come nei sistemi complessi. >> >> — Beppe >> >> >> _______________________________________________ >> nexa mailing list >> nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> >> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa