Partiamo dal repository di openai/gpt-3, archiviato il 19/9/2020 [1]
Numero di parole su cui è stato addestrato [2]:
181.014.683.608 parole inglesi (pari al 92,65%)
1.187.784.217 parole italiane (pari allo 0,61%)
31.142 parole in inuktitut (pari allo 0,00002%)
Dalla pagina wikipedia di GPT-3 [3] risultano, come dati di addestramento:
Set di dati N. Token Peso nel mix di addestramento
Common Crawl 410 miliardi 60%
WebText2 19 miliardi 22%
Books1 12 miliardi 8% (*)
Books2 55 miliardi 8%
Wikipedia 3 miliardi 3%
(*) le parole prese dai libri "pesano" di più di quelle prese dai siti
Internet [4]
Allargando il campo a tutto il machine learning, i datasets sono più o
meno questi:
- List of datasets for machine-learning research [5]
tra cui spicca, oltre al solito Common Crawl, un USENET corpus
(2005-2011) di ben
7 miliardi di parole [6]
Per finire un'immagine che non c'entra nulla con sopra ma uscita fuori
per serendipità
e dato che in questa lista c'è qualche olivettiano ... eccola:
https://cs.nyu.edu/~roweis/data/olivettifaces.gif
trovata qui: https://cs.nyu.edu/~roweis/data.html
A.
[1] https://github.com/openai/gpt-3
[2]
https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv
[3] https://it.wikipedia.org/wiki/GPT-3
[4] https://commoncrawl.org/
[5]
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
[6]
http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa