On Tue, Feb 27, 2024 at 03:16:03PM +0100, Marco A. Calamari wrote: > Non vorrei tediare la lista, quindi sarò sintetico > https://datarade.ai/data-categories/ai-ml-training-data/datasets
Nel caso di ChatGPT, quello che si sa per GPT-4 (a mia conoscenza) è questo: "trained [...] using both publicly available data (such as internet data) and data licensed from third-party providers." (fonte: https://arxiv.org/pdf/2303.08774.pdf ) Loro stessi dichiarano di avere un web crawler e come escludere pagine dal suo crawling qua: https://platform.openai.com/docs/gptbot (Per GPT-3 hanno dichiarato di avere usato anche CommonCrawl, ma era "solo" il 60% del training set.) Comunque sia, proprio perché è tutto molto chiuso (e nel caso specifico anche segreto industriale), possiamo solo tirare a indovinare sulla esattezza dei dettagli... -- Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "' _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa