> per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo
> pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno
> insegnato a scuola

Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick 
Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per 
assumere un linguista) la performance del nostro sistema migliora".
A parità di risultato finale, un set dati in una lingua nota, produce un 
"model" molto più piccolo, un "tokenizer" più piccolo e adattato ai lemmi di 
quella lingua, con la sua sillabazione, le sue forme clitiche, i suoi affissi, 
ecc.
Un risultato finale *identico* ma con molti cicli macchina in meno (non ditelo 
a NVIDA) e con molta energia elettrica in meno.
Un "modello" del genere potrebbe andare bene in tutti quei casi in cui non 
serve un approccio multilingue. Penso alla pubblica amministrazione, alla 
giustizia ... Poi, certo, vi si potrebbe abbinare un sistema "generico", magari 
derivato da uno di quelli "open source" che ci sono adesso, tipo LLaMA, ecc. 
che entrerebbe in azione solo su richiesta dell'utente.

A.
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to