Certo, confrontiamo le cose comparabili.

Tra i modelli c.d. 'aperti' di dimensioni <= 70B spiccano oggi Llama 3.1
70B (82.7) e gemma-2 27B (80.7), che hanno ormai prestazioni comparabili
con i modelli 'chiusi' come GPT e Claude (non parlo solo del task INVALSI
naturalmente, la situazione 'sul campo' sta diventando molto interessante).

I modelli italianissimi sono saldamente in fondo, anche quelli instructed.
Un po' certamente si deve alle dimensioni (d'altra parte su come costruire
un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),
un po' si deve alle instruction, diciamo che ci si dovrà lavorare, però mi
sembra che l'autarchia linguistica non stia producendo grandi risultati
fino ad oggi.

Infine certo: un benchmark è solo un benchmark (anche quelli 'standard'
come le risposte multiple), la vera misura l'avremo quando potremo
ragionare sull'adozione.

Cheers,
G.



On Wed, 31 Jul 2024 at 19:37, Antonio <anto...@piumarossa.it> wrote:

> > ci sono le bugie, le maledette bugie, e i benchmark .. :-)
> > comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui
> > benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà
> > pur dire
>
> Se per questo vanno anche venti volte meglio [1], ma è un numero che non
> vale nulla.
> Stiamo confrontando mele con pere.
> Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward
> Modeling), RL (Reinforcement Learning) model.
> I Base model (come Minerva-3B-base) non sono assolutamente adatti per
> questo tipo di confronti.
> Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B.
> Lungi da me parteggiare per i modelli autarchici per amor patriae, sul
> Modello Italia non credo di esserci andato leggero [2], ma da qui a dire
> che i modelli multilingua sono migliori a prescindere non mi trova
> d'accordo.
> I modelli multilingua sono solo un enorme spreco per l'ambiente.
> Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di
> migliaia di prompt di buona qualità (sono sufficienti un centinaio di
> GPU/days per il reinforcement learning) e poi rifacciamo girare lo script
> di benchmark. Scommettiamo che il divario diminuisce?
>
> A.
>
> [1]
> claude-3.5-sonnet: 92.2
> Meta-Llama-3.1-405B-Instruct: 86.1
> gpt-4-turbo: 86
> gemini-pro-1.5: 81.2
> ...
> Minerva-3B-base-v1.0: 4.9
>
> [2] https://www.saela.eu/modelloitalia/
>

Reply via email to