> Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio
> monolinguistico, a meno di non voler fare un discorso di 'purezza dei
> contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana
> velleitaria e cialtronesca.

No, no, nessuna purezza, è solo ... calcolo combinatorio.
Poniamo un dizionario di 1000 token.
Ipotizziamo in questi mille token, 900, tra caratteri (e/o ideogrammi) 
cirillici, cinesi, coreani, giapponesi.
Con i 100 rimanenti, possiamo comunque addestrare un LM. La cui efficienza sarà 
infinitesimale.
I token devono quindi essere pezzi di parola frequenti e con un particolare 
alfabeto (mettiamo il latino).
Per come sono costruiti gli LLM, sia in fase di training che di inference, 
verranno comunque visitate e calcolate tutte le combinazione, quindi, nel primo 
caso, in una semplice matrice, andranno bene SOLO 10000 calcoli su 1000000.
Con un LM monolinguistico hai bisogno:
1) in un dataset molto più piccolo
2) di un dizionario limitato all'alfabeto di quella lingua e dei token più 
diffusi di quella lingua e con caratteri facenti parte di quell'alfabeto
3) l'inferenza è molto più veloce perché non deve calcolare su caratteri e/o 
token che in quella lingua non hanno proprio senso
...

A.

Reply via email to