Partiamo dal repository di openai/gpt-3, archiviato il 19/9/2020 [1]
Numero di parole su cui è stato addestrato [2]:
181.014.683.608 parole inglesi (pari al 92,65%)
  1.187.784.217 parole italiane (pari allo 0,61%)
         31.142 parole in inuktitut (pari allo 0,00002%)

Dalla pagina wikipedia di GPT-3 [3] risultano, come dati di addestramento:

Set di dati    N. Token     Peso nel mix di addestramento
Common Crawl  410 miliardi    60%
WebText2       19 miliardi    22%
Books1         12 miliardi     8% (*)
Books2         55 miliardi     8%
Wikipedia       3 miliardi     3%

(*) le parole prese dai libri "pesano" di più di quelle prese dai siti Internet [4]

Allargando il campo a tutto il machine learning, i datasets sono più o meno questi:
- List of datasets for machine-learning research [5]
tra cui spicca, oltre al solito Common Crawl, un USENET corpus (2005-2011) di ben
7 miliardi di parole [6]

Per finire un'immagine che non c'entra nulla con sopra ma uscita fuori per serendipità
e dato che in questa lista c'è qualche olivettiano ... eccola:
https://cs.nyu.edu/~roweis/data/olivettifaces.gif
trovata qui: https://cs.nyu.edu/~roweis/data.html

A.

[1] https://github.com/openai/gpt-3
[2] https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv
[3] https://it.wikipedia.org/wiki/GPT-3
[4] https://commoncrawl.org/
[5] https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research [6] http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to