> ci sono le bugie, le maledette bugie, e i benchmark .. :-) > comunque quando i modelli multilingua di Meta, DeepMind e Mistral sui > benchmark italiani vanno al doppio di quelli 'autarchici', qualcosa dovrà > pur dire
Se per questo vanno anche venti volte meglio [1], ma è un numero che non vale nulla. Stiamo confrontando mele con pere. Alcuni sono Base model, altri SFT (Supervised Finetuning), RM (Reward Modeling), RL (Reinforcement Learning) model. I Base model (come Minerva-3B-base) non sono assolutamente adatti per questo tipo di confronti. Oltre, ovviamente, al fatto che 3B è un tantino meno di 405B. Lungi da me parteggiare per i modelli autarchici per amor patriae, sul Modello Italia non credo di esserci andato leggero [2], ma da qui a dire che i modelli multilingua sono migliori a prescindere non mi trova d'accordo. I modelli multilingua sono solo un enorme spreco per l'ambiente. Prendiamo un Minerva-3B-base, gli diamo in pasto qualche centinaio di migliaia di prompt di buona qualità (sono sufficienti un centinaio di GPU/days per il reinforcement learning) e poi rifacciamo girare lo script di benchmark. Scommettiamo che il divario diminuisce? A. [1] claude-3.5-sonnet: 92.2 Meta-Llama-3.1-405B-Instruct: 86.1 gpt-4-turbo: 86 gemini-pro-1.5: 81.2 ... Minerva-3B-base-v1.0: 4.9 [2] https://www.saela.eu/modelloitalia/