On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote:
> > Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è
> > raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei
> > loro dataset di training grandi parti del Web (solitamente ottenute via
> > crawling fatto in casa), che nessuna parte terza può legittimamente
> > redistribuire, dato che solo una piccolissima parte del Web è
> > disponibile sotto licenze libere.
> 
> Un appunto, nessuna azienda *europea* lo può fare.
> Quelle americane, ad esempio, legalmente possono e lo fanno.

Ho l'impressione che parliamo di diritti diversi.

Io mi riferisco a quello di redistribuire i training dataset acquisiti
via web crawling (o simili). A mia conoscenza, non lo possono fare
nemmeno quelle americane e non lo fanno. E la ragione è abbastanza
ovvia: se fai web crawl recuperi pagine con milioni di detentori di
diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior
parte delle quali non permette redistribuzione.

Se hai controesempi sono i benvenuti.

Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini
di machine learning, e su quello effettivamente la situazione tra EU e
US e abbastanza diversa. (Anche se la recente riforma del copyright
europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni
use case.)

> Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste
>  "aziende specializzate", in modo da avere comunque  un ulteriore schermo
>  legale contro cause civili spicciole per diritto d'autore e proprietà
> intellettuale.

Non ho una statistica esaustiva, ma per interazione diretta con gli
autori di LLM sia specifici per il codice che general purpose (a-la
ChatGPT), a me risulta il contrario. C'è molto crawling e mining in
proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma
che a mia conoscenza non è dominante negli LLM state-of-the-art.

Ciao
-- 
Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CTO Software Heritage            o o o     o       /\|^|/\
https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro   '" V "'
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to