> Il motivo è che includono nei loro dataset di training grandi parti del
Web (solitamente ottenute via
> crawling fatto in casa), che nessuna parte terza può legittimamente
redistribuire

infatti i dataset non sono distribuiti, neanche quelli dei modelli c.d.
aperti, però molti di questi sono comunque reperibili 'a prescindere'

ci sono poi attacchi con i quali si riesce a ottenere qualcosa dai modelli,
ma bisogna saperci fare :-)

https://arxiv.org/pdf/2311.17035.pdf

G.



On Tue, 27 Feb 2024 at 10:39, Stefano Zacchiroli <z...@upsilon.cc> wrote:

> On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote:
> > Facciamolo con fondi pubblici un modello davvero completamente Open,
> > dai dati di apprendimento, al codice, ai pesi del modello, ai test di
> > valutazione.
>
> Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open"
> (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training,
> codice di training, codice di inferenza, pesi del modello.
>
> Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è
> raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei
> loro dataset di training grandi parti del Web (solitamente ottenute via
> crawling fatto in casa), che nessuna parte terza può legittimamente
> redistribuire, dato che solo una piccolissima parte del Web è
> disponibile sotto licenze libere.
>
> Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno
> svantaggio competitivo enorme rispetto a quelle chiuse --- il che è
> molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel
> verso giusto, con modelli sempre più aperti che riescono sempre meglio a
> rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e
> non è detto che il gap sia completamente colmabile.
>
> Nel mentre dovremmo guardare criticamente alle regolamentazioni che
> hanno permesso tutto questo "yolo training", che dà un vantaggio
> competitivo enorme a chi libero non vuole essere.
>
> Ciao
> --
> Stefano Zacchiroli . z...@upsilon.cc . https://upsilon.cc/zack  _. ^ ._
> Full professor of Computer Science              o     o   o     \/|V|\/
> Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
> Co-founder & CTO Software Heritage            o o o     o       /\|^|/\
> https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro   '" V "'
> _______________________________________________
> nexa mailing list
> nexa@server-nexa.polito.it
> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to