> On 19 Jul 2023, at 06:51, nexa-requ...@server-nexa.polito.it wrote:
>
> Date: Wed, 19 Jul 2023 12:05:12 +0200
> From: Fabio Alemagna <falem...@gmail.com>
> To: Guido Vetere <vetere.gu...@gmail.com>
> Cc: Daniela Tafani <daniela.taf...@unipi.it>,
> "nexa@server-nexa.polito.it" <nexa@server-nexa.polito.it>
> Subject: Re: [nexa] AI and antitrust in 10 minutes
> Message-ID:
> <CACGmXuPNy4Y9uFBdL7O=QsCYtNYE3hP5gLbg-QzUZW=fpr8...@mail.gmail.com>
> Content-Type: text/plain; charset="UTF-8"
>
>> Il giorno mer 19 lug 2023 alle ore 10:44 Guido Vetere
>> <vetere.gu...@gmail.com> ha scritto:
>>
>> un piccolo commento a caldo dopo aver dato una scorsa a questo illuminante
>> intervento
>> noi diamo per scontato che i LLM non possano che essere ciò che oggi ci
>> viene proposto dal dupolio Microsoft \ Google
>
> Non mi pare esista al momento un duopolio riguardo gli LLM: ne
> esistono decine di completamente open source, prodotti un po' in tutto
> il mondo.
Dipende da cosa consideri Large.
I veri LLM, quelli la cui dimensione consente l’apparire di emergent abilities,
solo pochi si possono permettersi di costruirli.
E le dimensiini dei LLM sono finora cresciute esponenzialmente.
D’altra parte, non avrebbe senso che migliaia di ricercatori chiedessero di
fermare lo sviluppo di LLM più potenti di GPT-4, se questa non fosse il
percorso di sviluppo più promettente.
I LM cosiddetti Open Source (ma non è di source che si parla, ma dei parametri
del modello), sono circa un ordine di grandezza più piccoli di quelli più
grandi.
Questo si ripercuote sulle loro capacità. Non bisogna farsi illudere dalle
dichiarazioni degli sviluppatori nel confronto con altri LLM.
I confronti vengono fatti su task specifici, su cui quei modelli sono
ottimizzati.
Ma i LLM contengono una mole superiore di conoscenze, tali che possono essere
utilizzati per altri task, solo col prompting, senza fare fine-tuning.
E il fine-tuning di un modello da 60-80 miliardi di parametri richiede comunque
un server con almeno 4 GPU (altrimenti non sta in memoria) e diversi giorni di
calcolo.
Il risultato è spesso inferiore a quello di un LLM.
Lo so per esperienza diretta personale e di altri.
Infine, non vorrei lasciare a quei pochi che se possono permettere, le scelte
su come fare un LLM e dovermi limitare a quello che loro graziosamente, o
pelosamente per conquistare quote di mercato, mettono a disposizione.
Vorrei poter avere la libertà di esplorare anche nuove strade.
Anche solo per fare, come dice Vetere, modelli per la mia lingua, o per un
settore specifico (salute, energia), o per determinati punti di vista
(politici, economici, sociali, personali).
> Anche il Technology Innovation Institute dell'Arabia Saudita
> ha rilasciato un LLM come Open Source: https://falconllm.tii.ae/
The model uses only 75 percent of GPT-3’s training compute, 40 percent of
Chinchilla’s, and 80 percent of PaLM-62B’s
Ossia, forse gli arabi hanno i soldi per pagarsi le risorse computazionali per
costruirsi un loro LLM, ma difficile che ce li abbiano i ricercatori europei,
quando i progetti europei su AI dispongono di un centinaio di milioni in tutto
per dozzine di progetti triennali con dozzine di partner.
Le risorse di calcolo per costruire GPT-3.5 sono stimate in 10^23 FLOPS per un
costo di centinaia di milioni di $.
Meta, per rilasciare i suoi modelli, ha costruito un Research Supercluster con
10.000 GPU Nvidia, che secondo Yann LeCun è già in overbooking.
Musk, mentre chiede di fermare lo sviluppo di LLM, ha ordinato anche lui 10.000
GPU per X.AI.
Le startup come Converse.AI e Anthropic AI, hanno raccolto finanziamenti da 1-3
miliardi$, principalmente per comprarsi le risorse di calcolo.
Il massimo che abbiamo in Europa è Mistral, con 100 milioni di VC.
— Beppe
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa