> Ogni token può rappresentare anche più di una parola

No, i token sono fissi e possono (oppure no) iniziare con lo spazio. Quindi non 
ci possono essere token con lo spazio in mezzo, ovvero formati da più di una 
parola. La grandezza del vocabolario di GPT[1-3] è 50256 token, quella di LLaMA 
di 32000, GPT4 ha 100256 token [1], ecc.

A meno che non intendiamo cose diverse ;)

A.

[1] 
https://github.com/kaisugi/gpt4_vocab_list/blob/main/cl100k_base_vocab_list.txt
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to