> Eh, ma ragioni da linguista, non da statistico ;)

lo so, è una vergogna :-)

quando gli amici mathematicos, in tempi non sospetti, mi illustrarono
queste tecniche, li presi in giro dicendo che era una spannometria
(span=espansione)

adesso sono loro che prendono in giro me, perché la cosa ha funzionato :-O

il fatto è che sui grandi numeri emerge in effetti qualcosa di morfologico,
ma servono appunto i grandi numeri, sia in termini di dati di
addestramento, sia dei parametri del modello

per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo
pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno
insegnato a scuola

staremo a vedere

G.

PS: i mathematicos poi sbagliano quando reificano i loro intrugli
algoritmici promuovendoli a una linguistica alternativa tutta giocata sul
piano del significante




On Wed, 20 Mar 2024 at 23:10, Antonio <anto...@piumarossa.it> wrote:

> > Anzitutto complimenti per Zefiro, lo proverò appena posso
>
> No, no, non voglio prendermi meriti che non mi spettano.
> Io non c'entro nulla con quel progetto, ho solo usato alcuni dei file che
> ne fanno parte, per i test.
>
> > La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista
> > l'abbondanza e la complessità delle forme clitiche, con le particelle
> > pronominali ficcate dappertutto, pure nei verbi.
>
> Eh, ma ragioni da linguista, non da statistico ;)
> La tokenizzazione, nei Transformer models, è ad opera degli algoritmi
> Byte-Pair Encoding (BPE) [1], WordPiece, Unigram, linguisticamente neutri.
> In breve, un algoritmo del genere forma dei dizionari composti da un
> insieme iniziale di unigrammi (ad esempio le lettere dell'alfabeto) seguito
> da digrammi composti dalle coppie più frequenti e così via, finché non si
> ottiene un vocabolario delle dimensioni stabilite (32000 nel caso di LLaMA,
> 50257 di GPT, ecc.).
> Scorrendo l'elenco del vocabolario di LLaMA saltano fuori token che, a
> prima vista, ti chiedi dove cavolo sono andati a prenderli, visto che non
> esistono in nessuna lingua del mondo, ad esempio: pgfscope.
> Poi cerchi in rete e scopri che è un termine usato da "pgf package", "a
> TEX macro package", "Inside a picture, you can create nested scopes using
> pgfscope" [2]. Chissà in quanti documenti TEX hanno ravanato.
>
> A.
>
> [1] https://arxiv.org/pdf/1508.07909.pdf
> [2]
> https://www.cs.cmu.edu/afs/cs/misc/tex/common/teTeX-3.0-distrib/share/texmf/doc/latex/pgf/pgfuserguide.pdf
> _______________________________________________
> nexa mailing list
> nexa@server-nexa.polito.it
> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to