On Tue, Feb 27, 2024 at 05:27:06PM +0100, Stefano Maffulli wrote: > On Tue, Feb 27, 2024, 14:11 Stefano Zacchiroli <z...@upsilon.cc> wrote: > > > > Ma ci sono anche esempi virtuosi, come Starcoder o Eleuther (LLM per il > > codice), i cui training dataset (assieme a tutto il resto) sono > > interamente disponibili e libri. > > Non tutti i dataset di Eleuther AI sono ridistribuibili. Anzi, The Pile è > purtroppo stato rimosso dalla circolazione, se non ricordo male.
Ah, non lo sapevo, grazie per l'informazione. Ora che mi ci hai fatto guardare vedo qua https://huggingface.co/datasets/EleutherAI/pile/discussions/15 che ci sono versioni di The Pile ripulite dei contenuti problematici, ma mantenute dalla comunità e non da Eleuther. (Disclaimer: non le ho testate.) Starcoder/The Stack invece è ancora vivo e lotta insieme a noi per avere AI libere: https://huggingface.co/datasets/bigcode/the-stack -- Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "' _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa