> il tema però è quello della costruzione (nb: non fine-tuning) E' un NB grosso come una casa. "Zefiro is a fine-tuned version of the Mistral model for the Italian language" Quindi, il dizionario di Zefiro è lo STESSO di quello di Mistral. E' come studiare i Promessi Sposi, avendo accanto un dizionario multilingue in cui i lemmi in italiano (una piccola percentuale) siano in mezzo a quelli delle altre lingue. Una follia, direbbe un letterato.
> se dovessi farlo io, punterei > molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire > dalla morfologia. ma parlo da linguista :-) Prendiamo il progetto OSCAR [1]: The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. This repository is publicly accessible, but you have to accept the conditions to access its files and content. By filling the form below, you understand that only the metadata and the annotations of OSCAR 23.01 have a cc0-1.0 license, and that the rest of the content is crawled data derived from the November/December 2022 snapshot of Common Crawl, for which the authors of OSCAR do not hold any copyright whatsoever. Italian 89.021.606 documenti, 36.327.274.203 parole, 259.4 GB Estratte da Common Crawl, quindi dal web, senza chiedere permesso a nessuno. Qualcuno ha mai quantificato, invece, l'Open access in italiano? A naso direi più di 259 Gb Qualcuno ha mai quantificato i "documenti" presenti, ad esempio, in Normattiva? Sempre a naso, direi più di 259 Gb E potrei continuare ... A. [1] https://oscar-project.github.io/documentation/versions/oscar-2301/ _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa