> il tema però è quello della costruzione (nb: non fine-tuning) 

E' un NB grosso come una casa.
"Zefiro is a fine-tuned version of the Mistral model for the Italian language"
Quindi, il dizionario di Zefiro è lo STESSO di quello di Mistral.
E' come studiare i Promessi Sposi, avendo accanto un dizionario multilingue in 
cui i lemmi in italiano (una piccola percentuale) siano in mezzo a quelli delle 
altre lingue. Una follia, direbbe un letterato.

> se dovessi farlo io, punterei
> molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire
> dalla morfologia. ma parlo da linguista :-)

Prendiamo il progetto OSCAR [1]:
The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open 
Source project aiming to provide web-based multilingual resources and datasets 
for Machine Learning (ML) and Artificial Intelligence (AI) applications.
This repository is publicly accessible, but you have to accept the conditions 
to access its files and content.
By filling the form below, you understand that only the metadata and the 
annotations of OSCAR 23.01 have a cc0-1.0 license, and that the rest of the 
content is crawled data derived from the November/December 2022 snapshot of 
Common Crawl, for which the authors of OSCAR do not hold any copyright 
whatsoever.

Italian 89.021.606 documenti, 36.327.274.203 parole, 259.4 GB
Estratte da Common Crawl, quindi dal web, senza chiedere permesso a nessuno.

Qualcuno ha mai quantificato, invece, l'Open access in italiano?
A naso direi più di 259 Gb
Qualcuno ha mai quantificato i "documenti" presenti, ad esempio, in Normattiva?
Sempre a naso, direi più di 259 Gb
E potrei continuare ...

A.

[1] https://oscar-project.github.io/documentation/versions/oscar-2301/
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to