> Ogni token può rappresentare anche più di una parola No, i token sono fissi e possono (oppure no) iniziare con lo spazio. Quindi non ci possono essere token con lo spazio in mezzo, ovvero formati da più di una parola. La grandezza del vocabolario di GPT[1-3] è 50256 token, quella di LLaMA di 32000, GPT4 ha 100256 token [1], ecc.
A meno che non intendiamo cose diverse ;) A. [1] https://github.com/kaisugi/gpt4_vocab_list/blob/main/cl100k_base_vocab_list.txt _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa