> per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo > pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno > insegnato a scuola
Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per assumere un linguista) la performance del nostro sistema migliora". A parità di risultato finale, un set dati in una lingua nota, produce un "model" molto più piccolo, un "tokenizer" più piccolo e adattato ai lemmi di quella lingua, con la sua sillabazione, le sue forme clitiche, i suoi affissi, ecc. Un risultato finale *identico* ma con molti cicli macchina in meno (non ditelo a NVIDA) e con molta energia elettrica in meno. Un "modello" del genere potrebbe andare bene in tutti quei casi in cui non serve un approccio multilingue. Penso alla pubblica amministrazione, alla giustizia ... Poi, certo, vi si potrebbe abbinare un sistema "generico", magari derivato da uno di quelli "open source" che ci sono adesso, tipo LLaMA, ecc. che entrerebbe in azione solo su richiesta dell'utente. A. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa