Re: [nexa] L'AI e il cambio di paradigma

Antonio Tue, 19 Mar 2024 11:50:13 -0700

> fare un LLM competitivo con dataset limitati (solo italiano, no copyright,
> no bias, etc) mi sembra una cosa tecnicamente improbabile ...


Per quanto riguarda la lingua non sono d'accordo. 
Un foundation model in italiano sarebbe molto più efficiente, sia in fase di 
training che in inference.
A cominciare dal tokenizer, meno token si usano per una parola, più è 
efficiente l'LLM. 
I termini inglesi hanno in media, rispetto ai corrispondenti italiani, uno o 
due caratteri in meno.
Il tokenizer, e qui sta il maggiore spreco, è stato "composto" con i token più 
diffusi, per lo più termini inglesi.
Per dire, la parola "misunderstanding" di ben 16 caratteri, viene "spezzata" in 
soli 3 token: mis-under-standing
La parola "trasgredirebbero", sempre di 16, ne richiederebbe invece ben otto, 
tr-as-g-red-ire-b-ber-o.
Ho testato il tokenizer del progetto Zefiro [1]. Qui [2] il file.
Ebbene, su 32000 token, solo 831 hanno un "senso" in italiano. Uno "spreco" del 
97,4%.

A.

[1] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1
[2] 
https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1/raw/main/tokenizer.json


_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] L'AI e il cambio di paradigma

Reply via email to