> fare un LLM competitivo con dataset limitati (solo italiano, no copyright, > no bias, etc) mi sembra una cosa tecnicamente improbabile ...
Per quanto riguarda la lingua non sono d'accordo. Un foundation model in italiano sarebbe molto più efficiente, sia in fase di training che in inference. A cominciare dal tokenizer, meno token si usano per una parola, più è efficiente l'LLM. I termini inglesi hanno in media, rispetto ai corrispondenti italiani, uno o due caratteri in meno. Il tokenizer, e qui sta il maggiore spreco, è stato "composto" con i token più diffusi, per lo più termini inglesi. Per dire, la parola "misunderstanding" di ben 16 caratteri, viene "spezzata" in soli 3 token: mis-under-standing La parola "trasgredirebbero", sempre di 16, ne richiederebbe invece ben otto, tr-as-g-red-ire-b-ber-o. Ho testato il tokenizer del progetto Zefiro [1]. Qui [2] il file. Ebbene, su 32000 token, solo 831 hanno un "senso" in italiano. Uno "spreco" del 97,4%. A. [1] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1 [2] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1/raw/main/tokenizer.json _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa