C'è poi un piccolo particolare che rende la nozione di 'Open Source'
difficilmente applicabile ai LLM: se pure uno avesse tutti i dataset
eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare
training anche di pochi miliardi di parametri. Cioè: servirebbe ancora
Leonardo, o in alternativa un grosso conto in banca.
Dunque: di che stiamo parlando?
G.
PS: continuo a osservare un certo verbalismo in questo accanimento
terminologico, ma per carità non voglio sollevare polemiche :-)





On Tue, 2 Jul 2024 at 16:05, Giacomo Tesio <giac...@tesio.it> wrote:

> Ciao Federico,
>
> Il giorno Tue, 2 Jul 2024 14:15:30 "Federico Leva (Nemo)" ha scritto:
>
> > Per questo OSI sta lavorando a una Open Source AI Definition:
> >
> https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8
>
> una definizione scritta da qualcuno che non sa (o sa fin troppo bene)
> cosa serve per realizzare un LLM.
>
> Infatti la definizione prescrive che:
>
> ```
> The preferred form of making modifications for a machine-learning Open
> Source AI must include:
>
>     Data information: Sufficiently detailed information about the data
>     used to train the system, so that a skilled person can recreate a
>     substantially equivalent system using the same or similar data.
>
> ```
>
> Accettare informazioni "sufficiently detailed" per ricreare un sistema
> "substantially" equivalente, significa aprire all'impossibilità tecnica
> di ricreare un sistema esattamente equivalente.
>
> Cosa che sarebbe tecnicamente possibile disponendo di TUTTE le
> informazioni necessarie a creare il software in questione.
>
> Infatti, entro minuscole variazioni numeriche distribuite fra miliardi
> di variabili (pesi), è perfettamente possibile nascondere qualsiasi
> bias. Solo la possibilità di riprodurre ESATTAMENTE il software in
> questione può permettere davvero di esercitare il diritto allo studio e
> alla modifica del sistema.
>
>
> Ora, l'OSI dovrebbe essere in condizione di comprendere che un software
> distribuito con sorgenti simili, persino "sostanzialmente equivalenti" a
> quelli usati per creare il binario (ma non esattamente quelli usati),
> NON è software Open Source.
>
> Perché allora non scrivere, più semplicemente:
>
>     Data information: All information and data used to create the
>     system, so that a skilled person can exactly recreate the system
>     using the data.
>
> Sarebbe più semplice, permetterebbe di verificare che i dati dichiarati
> corrispondano esattamente a quelli utilizzati, permetterebbe di
> studiarne i bias e di decidere come modificare o arricchire i dati
> per ottenere LLM diversi.
>
> Peraltro, sostituendo "train" con "create", la definizione
> continuerebbe ad essere applicabile a nuovi metodi che non si
> basino sulle techine statistiche antropomorfizzate che vanno per la
> maggiore oggi.
>
>
> Perché dunque una definizione che contraddice quella di Open Source?
>
> L'ignoranza informatica in questo caso è poco credibile...
>
>
> Ma se proviamo a chiederci "cui prodest?" tutto diventa ovvio:
>
>     https://opensource.org/sponsors
>
>
> Giacomo
>

Reply via email to