Re: [nexa] nexa Digest, Vol 171, Issue 53

Giuseppe Attardi Wed, 19 Jul 2023 04:31:34 -0700


> On 19 Jul 2023, at 06:51, nexa-requ...@server-nexa.polito.it wrote:
> 
> Date: Wed, 19 Jul 2023 12:05:12 +0200
> From: Fabio Alemagna <falem...@gmail.com>
> To: Guido Vetere <vetere.gu...@gmail.com>
> Cc: Daniela Tafani <daniela.taf...@unipi.it>,
>    "nexa@server-nexa.polito.it" <nexa@server-nexa.polito.it>
> Subject: Re: [nexa] AI and antitrust in 10 minutes
> Message-ID:
>    <CACGmXuPNy4Y9uFBdL7O=QsCYtNYE3hP5gLbg-QzUZW=fpr8...@mail.gmail.com>
> Content-Type: text/plain; charset="UTF-8"
> 
>> Il giorno mer 19 lug 2023 alle ore 10:44 Guido Vetere
>> <vetere.gu...@gmail.com> ha scritto:
>> 
>> un piccolo commento a caldo dopo aver dato una scorsa a questo illuminante 
>> intervento
>> noi diamo per scontato che i LLM non possano che essere ciò che oggi ci 
>> viene proposto dal dupolio Microsoft \ Google
> 
> Non mi pare esista al momento un duopolio riguardo gli LLM: ne
> esistono decine di completamente open source, prodotti un po' in tutto
> il mondo.
Dipende da cosa consideri Large.
I veri LLM, quelli la cui dimensione consente l’apparire di emergent abilities, 
solo pochi si possono permettersi di costruirli.
E le dimensiini dei LLM sono finora cresciute esponenzialmente.
D’altra parte, non avrebbe senso che migliaia di ricercatori chiedessero di 
fermare lo sviluppo di LLM più potenti di GPT-4, se questa non fosse il 
percorso di sviluppo più promettente.
I LM cosiddetti Open Source (ma non è di source che si parla, ma dei parametri 
del modello), sono circa un ordine di grandezza più piccoli di quelli più 
grandi.
Questo si ripercuote sulle loro capacità. Non bisogna farsi illudere dalle 
dichiarazioni degli sviluppatori nel confronto con altri LLM.
I confronti vengono fatti su task specifici, su cui quei modelli sono 
ottimizzati.
Ma i LLM contengono una mole superiore di conoscenze, tali che possono essere 
utilizzati per altri task, solo col prompting, senza fare fine-tuning.
E il fine-tuning di un modello da 60-80 miliardi di parametri richiede comunque 
un server con almeno 4 GPU (altrimenti non sta in memoria) e diversi giorni di 
calcolo.
Il risultato è spesso inferiore a quello di un LLM.
Lo so per esperienza diretta personale e di altri.


Infine, non vorrei lasciare a quei pochi che se possono permettere, le scelte 
su come fare un LLM e dovermi limitare a quello che loro graziosamente, o 
pelosamente per conquistare quote di mercato, mettono a disposizione.

Vorrei poter avere la libertà di esplorare anche nuove strade.
Anche solo per fare, come dice Vetere, modelli per la mia lingua, o per un 
settore specifico (salute, energia), o per determinati punti di vista 
(politici, economici, sociali, personali).

> Anche il Technology Innovation Institute dell'Arabia Saudita
> ha rilasciato un LLM come Open Source: https://falconllm.tii.ae/

The model uses only 75 percent of GPT-3’s training compute, 40 percent of 
Chinchilla’s, and 80 percent of PaLM-62B’s

Ossia, forse gli arabi hanno i soldi per pagarsi le risorse computazionali per 
costruirsi un loro LLM, ma difficile che ce li abbiano i ricercatori europei, 
quando i progetti europei su AI dispongono di un centinaio di milioni in tutto 
per dozzine di progetti triennali con dozzine di partner.

Le risorse di calcolo per costruire GPT-3.5 sono stimate in 10^23 FLOPS per un 
costo di centinaia di milioni di $.
Meta, per rilasciare i suoi modelli, ha costruito un Research Supercluster con 
10.000 GPU Nvidia, che secondo Yann LeCun è già in overbooking.
Musk, mentre chiede di fermare lo sviluppo di LLM, ha ordinato anche lui 10.000 
GPU per X.AI.
Le startup come Converse.AI e Anthropic AI, hanno raccolto finanziamenti da 1-3 
miliardi$, principalmente per comprarsi le risorse di calcolo.

Il massimo che abbiamo in Europa è Mistral, con 100 milioni di VC.

— Beppe

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] nexa Digest, Vol 171, Issue 53

Reply via email to