Salve Stefano, On Mon, 9 Sep 2024 10:56:06 +0200 Stefano Zacchiroli wrote:
> La recitation è assolutamente *possibile* [...] > La frequenza dipende da proprietà statistiche del training dataset > [...] > Quello che invece regolarmente fanno attori come GitHub con Copilot è > di aggiungere a valle della generazione con gli LLM dei filtri basati > su tecniche di code clone detection e anti-plagio [...] > Microsoft si sente abbastanza sicura di tutto questo da offrire > garanzie legali in termini di violazione del diritto d'autore quando > si usa la suite Copilot. (Non a caso lo fa *solo* se l'utente non ha > disabilitato il filtering a valle di cui parlavo sopra.) > > [...] > > Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o > meno un opera derivata dei suoi training input. Non mi è chiaro il passaggio logico. Sappiamo tutti che gli output degli LLM includono stralci delle opere utilizzati per programmarli. Sappiamo tutti che la frequenza di questi stralci dipende dalle proprietà statistiche del dataset costituito da tali opere. Sappiamo addirittura che Microsoft & friends post-processano gli output degli LLM per escludere tali testi con tecniche anti plagio. Come altro potremmo interpretare questi fatti se non riconoscendo che il LLM è un opera derivata (un eseguibili prodotto attraverso un processo di compressione con perdita) dei testi utilizzati per programmarlo? Perché adottare filtri anti-plagio se le opere non fossero codificate (pur in formato compresso con perdita) nelle matrici che costituiscono l'LLM e di conseguenza nell'output che questi producono? Direi al contrario che i fatti elencati *dimostrino* come le "AI generative" siano opere derivate delle opere utilizzate per programmarle. La necessità di filtri anti-plagio dimostra gli innumerevoli plagi avvenuti a monte, durante la realizzazione del "modello". O forse intendi che tutto questo non ci aiuta nel dibattito perché risponde alla questione al di la di ogni ragionevole dubbio? O ancora che non aiuta chi vuole che il dibattito continui per evitare (o rimandare) gli obblighi connessi alle licenze copyleft? O ancora che non aiuta chi vuole che il dibattito continui per evitare di rispettare la normativa vigente pagando agli autori delle opere il diritto di creare opere derivate? Giacomo