> Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio > monolinguistico, a meno di non voler fare un discorso di 'purezza dei > contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana > velleitaria e cialtronesca.
No, no, nessuna purezza, è solo ... calcolo combinatorio. Poniamo un dizionario di 1000 token. Ipotizziamo in questi mille token, 900, tra caratteri (e/o ideogrammi) cirillici, cinesi, coreani, giapponesi. Con i 100 rimanenti, possiamo comunque addestrare un LM. La cui efficienza sarà infinitesimale. I token devono quindi essere pezzi di parola frequenti e con un particolare alfabeto (mettiamo il latino). Per come sono costruiti gli LLM, sia in fase di training che di inference, verranno comunque visitate e calcolate tutte le combinazione, quindi, nel primo caso, in una semplice matrice, andranno bene SOLO 10000 calcoli su 1000000. Con un LM monolinguistico hai bisogno: 1) in un dataset molto più piccolo 2) di un dizionario limitato all'alfabeto di quella lingua e dei token più diffusi di quella lingua e con caratteri facenti parte di quell'alfabeto 3) l'inferenza è molto più veloce perché non deve calcolare su caratteri e/o token che in quella lingua non hanno proprio senso ... A.