On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote: > > Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è > > raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei > > loro dataset di training grandi parti del Web (solitamente ottenute via > > crawling fatto in casa), che nessuna parte terza può legittimamente > > redistribuire, dato che solo una piccolissima parte del Web è > > disponibile sotto licenze libere. > > Un appunto, nessuna azienda *europea* lo può fare. > Quelle americane, ad esempio, legalmente possono e lo fanno.
Ho l'impressione che parliamo di diritti diversi. Io mi riferisco a quello di redistribuire i training dataset acquisiti via web crawling (o simili). A mia conoscenza, non lo possono fare nemmeno quelle americane e non lo fanno. E la ragione è abbastanza ovvia: se fai web crawl recuperi pagine con milioni di detentori di diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior parte delle quali non permette redistribuzione. Se hai controesempi sono i benvenuti. Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini di machine learning, e su quello effettivamente la situazione tra EU e US e abbastanza diversa. (Anche se la recente riforma del copyright europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni use case.) > Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste > "aziende specializzate", in modo da avere comunque un ulteriore schermo > legale contro cause civili spicciole per diritto d'autore e proprietà > intellettuale. Non ho una statistica esaustiva, ma per interazione diretta con gli autori di LLM sia specifici per il codice che general purpose (a-la ChatGPT), a me risulta il contrario. C'è molto crawling e mining in proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma che a mia conoscenza non è dominante negli LLM state-of-the-art. Ciao -- Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "' _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa