Sicuro sicuro? :-D Il 2 Ottobre 2023 14:50:55 UTC, Antonio ha scritto: > > Ogni token può rappresentare anche più di una parola > > No, i token sono fissi e possono (oppure no) iniziare con lo spazio. Quindi > non ci > possono essere token con lo spazio in mezzo, ovvero formati da più di una > parola.
L'insieme dei token è fisso a valle del processo di programmazione statistica ma è determinato durante tale processo. [1] La dimensione del token può variare a seconda del processo di tokenizzazione (variando di conseguenza i diversi grafi di frequenze relative individuate nei testi "sorgente") La tokenizzazione MWU (multi words unit) è più recente e meno usata, ma parlando in generale di LLM invece di una specifica implementazione non vedo perché ignorarla. Trovi una buona introduzione al riguardo qui https://journals.openedition.org/lexis/6231 D'altronde se ci pensi qualsiasi LLM programmato su sorgenti software potrebbe ragionevolmente trattare keyword costituite da sequenze di caratteri contenenti spazi come singolo token. È il caso, ad esempio, di POINTER TO o ARRAY OF in Oberon-07. A presto! Giacomo [1] potenzialmente, nulla vieta di modificare i vettori associati ai token disponibili a posteriori, ad esempio sulla base degli input forniti dagli utenti, per dare l'impressione che il software "impari". _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa