On Tue, Feb 27, 2024 at 03:16:03PM +0100, Marco A. Calamari wrote:
> Non vorrei tediare la lista, quindi sarò sintetico
> https://datarade.ai/data-categories/ai-ml-training-data/datasets

Nel caso di ChatGPT, quello che si sa per GPT-4 (a mia conoscenza) è
questo:

  "trained [...] using both publicly available data (such as internet
   data) and data licensed from third-party providers."

  (fonte: https://arxiv.org/pdf/2303.08774.pdf )

Loro stessi dichiarano di avere un web crawler e come escludere pagine
dal suo crawling qua: https://platform.openai.com/docs/gptbot (Per GPT-3
hanno dichiarato di avere usato anche CommonCrawl, ma era "solo" il 60%
del training set.)

Comunque sia, proprio perché è tutto molto chiuso (e nel caso specifico
anche segreto industriale), possiamo solo tirare a indovinare sulla
esattezza dei dettagli...
-- 
Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CTO Software Heritage            o o o     o       /\|^|/\
https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro   '" V "'
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to