Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Giacomo Tesio Mon, 02 Oct 2023 05:29:52 -0700

Concordo Damiano,

Il giorno Mon, 2 Oct 2023 13:43:35 +0200 Damiano Verzulli ha scritto:


> Nella sua mail, Luigi segnalava questo link:
> 
> https://ig.ft.com/generative-ai/
> 
> che, fra tutto quello che ho letto e visto finora, in giro, on-line
> (e off-line), ritengo sia la migliore presentazione al riguardo.

è sicuramente un buon testo divulgativo su come può funzionare un LLM a
runtime. Mancano purtroppo alcuni dettagli rilevanti che, oltre ad
essere complessi da rappresentare, avrebbero definitivamente abbattuto
qualsiasi parvenza di intelligenza.

Primo fra tutti, l'utilizzo di sorgenti casuali (o pseudo-casuali) per
selezionare di volta in volta percorsi diversi fra quelli più
probabilmente vicini al vettore in input.

Tali sorgenti (pseudo?)casuali arricchiscono l'input dell'utente
facendo sì che il LLM possa fornire output diversi a fronte dello
stesso input fornito dall'utente stesso dandogli l'illusione di
comunicare con un essere intelligente ed autonomo.


Fra i limiti di quella presentazione c'è anche la totale assenza di
qualsiasi spiegazione sul processo di programmazione statistica
necessario alla creazione di quel software o sui suoi componenti.
Anche qui la complessità della materia giustifica la sua assenza.

Purtroppo ciò non aiuta a comprendere la natura del LLM come
opera inevitabilmente derivata dai testi usati per la sua
programmazione statistica. O l'influenza delle sorgenti casuali 
nelle fasi di inizializzazione di alcuni suoi componenti e
l'arbitrio che questa influenza fornisce ai programmatori.


Può forse aiutare in questo senso considerare come il disegno delle
parole sulla pagina non costituisca il lavoro dello scrittore.
L'opera creativa dello scrittore consiste proprio nella scelta della
relazione fra le parole nella sequenza che costituisce il testo,
relazione funzionale all'interpretazione che l'autore spera di indurre
nel lettore.

Il linguaggio infatti non è altro che un protocollo di sincronizzazione
fra le menti umane adeguatamente efficace (a seconda del contesto): non
ci scambiamo informazioni, ma dati che una volta interpretati
riproducono (più o meno) nella mente del ricevente l'informazione
che il mittente intendeva comunicare.


Il diritto d'autore riconosce (pur intuitivamente) questa dinamica: la
traduzione di un romanzo è ancora sottoposta ai diritti dell'autore
originale cui si aggiungono quelli del traduttore.


Quando l'opera dello scrittore viene usata per programmare
statisticamente un LLM questa relazione fra le parole viene salvata
dentro le matrici numeriche del LLM a prescindere dal proprio
significato.

Ad ogni prompt, il LLM percorre questa intricata foresta statistica di
parole, percorrendo più spesso le strade più battute ma usando le
sorgenti randomiche per non ripetere sempre pedissequamente la più
frequente per ingannare la mente dell'utente evolutasi in un ambiente
in cui determinate sequenza di simboli avevano un significato impresso
da un altro mittente umano.


Purtuttavia, se la traduzione di un testo è sottoposta al diritto
dell'autore originale, allo stesso modo un LLM dovrebbe essere
sottoposto al diritto d'autore di tutti gli autori originali.


Giacomo
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian

Reply via email to