> ci sono le bugie, le maledette bugie, e i benchmark .. :-)
> comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui
> benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà
> pur dire

Se per questo vanno anche venti volte meglio [1], ma è un numero che non vale 
nulla.
Stiamo confrontando mele con pere.
Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward 
Modeling), RL (Reinforcement Learning) model.
I Base model (come Minerva-3B-base) non sono assolutamente adatti per questo 
tipo di confronti.
Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B.
Lungi da me parteggiare per i modelli autarchici per amor patriae, sul Modello 
Italia non credo di esserci andato leggero [2], ma da qui a dire che i modelli 
multilingua sono migliori a prescindere non mi trova d'accordo.
I modelli multilingua sono solo un enorme spreco per l'ambiente.
Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di migliaia 
di prompt di buona qualità (sono sufficienti un centinaio di GPU/days per il 
reinforcement learning) e poi rifacciamo girare lo script di benchmark. 
Scommettiamo che il divario diminuisce?

A.

[1]
claude-3.5-sonnet: 92.2
Meta-Llama-3.1-405B-Instruct: 86.1
gpt-4-turbo: 86
gemini-pro-1.5: 81.2
...
Minerva-3B-base-v1.0: 4.9

[2] https://www.saela.eu/modelloitalia/

Reply via email to