On Tue, Feb 27, 2024 at 05:27:06PM +0100, Stefano Maffulli wrote:
> On Tue, Feb 27, 2024, 14:11 Stefano Zacchiroli <z...@upsilon.cc> wrote:
> >
> > Ma ci sono anche esempi virtuosi, come Starcoder o Eleuther (LLM per il
> > codice), i cui training dataset (assieme a tutto il resto) sono
> > interamente disponibili e libri.
> 
> Non tutti i dataset di Eleuther AI sono ridistribuibili. Anzi, The Pile è
> purtroppo stato rimosso dalla circolazione, se non ricordo male.

Ah, non lo sapevo, grazie per l'informazione. Ora che mi ci hai fatto
guardare vedo qua
https://huggingface.co/datasets/EleutherAI/pile/discussions/15 che ci
sono versioni di The Pile ripulite dei contenuti problematici, ma
mantenute dalla comunità e non da Eleuther. (Disclaimer: non le ho
testate.)

Starcoder/The Stack invece è ancora vivo e lotta insieme a noi per avere
AI libere: https://huggingface.co/datasets/bigcode/the-stack

-- 
Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CTO Software Heritage            o o o     o       /\|^|/\
https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro   '" V "'
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to