sono d'accordo: alla PA non serve un sistema "general purpose" multilingua e con generazione di codice inclusa, ma soprattutto qualcosa che permetta di implementare funzioni di estrazione intelligente, di RAG, etc grazie soprattutto a buoni embedding.
Un LM monolingua adatto a questi scopi potrebbe benissimo avere dimensioni contenute e ciascuna amministrazione potrebbe metterlo in esercizio perfino sulle workstation. peraltro, questo in qualche modo è già fattibile con modelli aperti < 70B. il tema però è quello della costruzione (nb: non fine-tuning) di un LM su testi italiani 'kosher'. OpenAI e Mistral hanno entrambi detto che sarebbe ben difficile stimare un modello efficace senza usare anche materiale copyrighted. chi ha ragione? lo vedremo. se dovessi farlo io, punterei molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire dalla morfologia. ma parlo da linguista :-) G. On Thu, 21 Mar 2024 at 20:00, Antonio <anto...@piumarossa.it> wrote: > > per questo, tornando al tema dell'autarchia italiana, mi chiedo se, > avendo > > pochi dati ma una lingua nota, non valga la pena tokenizzare come ci > hanno > > insegnato a scuola > > Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick > Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per > assumere un linguista) la performance del nostro sistema migliora". > A parità di risultato finale, un set dati in una lingua nota, produce un > "model" molto più piccolo, un "tokenizer" più piccolo e adattato ai lemmi > di quella lingua, con la sua sillabazione, le sue forme clitiche, i suoi > affissi, ecc. > Un risultato finale *identico* ma con molti cicli macchina in meno (non > ditelo a NVIDA) e con molta energia elettrica in meno. > Un "modello" del genere potrebbe andare bene in tutti quei casi in cui non > serve un approccio multilingue. Penso alla pubblica amministrazione, alla > giustizia ... Poi, certo, vi si potrebbe abbinare un sistema "generico", > magari derivato da uno di quelli "open source" che ci sono adesso, tipo > LLaMA, ecc. che entrerebbe in azione solo su richiesta dell'utente. > > A. > _______________________________________________ > nexa mailing list > nexa@server-nexa.polito.it > https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa >
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa