C'è poi un piccolo particolare che rende la nozione di 'Open Source' difficilmente applicabile ai LLM: se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca. Dunque: di che stiamo parlando? G. PS: continuo a osservare un certo verbalismo in questo accanimento terminologico, ma per carità non voglio sollevare polemiche :-)
On Tue, 2 Jul 2024 at 16:05, Giacomo Tesio <giac...@tesio.it> wrote: > Ciao Federico, > > Il giorno Tue, 2 Jul 2024 14:15:30 "Federico Leva (Nemo)" ha scritto: > > > Per questo OSI sta lavorando a una Open Source AI Definition: > > > https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8 > > una definizione scritta da qualcuno che non sa (o sa fin troppo bene) > cosa serve per realizzare un LLM. > > Infatti la definizione prescrive che: > > ``` > The preferred form of making modifications for a machine-learning Open > Source AI must include: > > Data information: Sufficiently detailed information about the data > used to train the system, so that a skilled person can recreate a > substantially equivalent system using the same or similar data. > > ``` > > Accettare informazioni "sufficiently detailed" per ricreare un sistema > "substantially" equivalente, significa aprire all'impossibilità tecnica > di ricreare un sistema esattamente equivalente. > > Cosa che sarebbe tecnicamente possibile disponendo di TUTTE le > informazioni necessarie a creare il software in questione. > > Infatti, entro minuscole variazioni numeriche distribuite fra miliardi > di variabili (pesi), è perfettamente possibile nascondere qualsiasi > bias. Solo la possibilità di riprodurre ESATTAMENTE il software in > questione può permettere davvero di esercitare il diritto allo studio e > alla modifica del sistema. > > > Ora, l'OSI dovrebbe essere in condizione di comprendere che un software > distribuito con sorgenti simili, persino "sostanzialmente equivalenti" a > quelli usati per creare il binario (ma non esattamente quelli usati), > NON è software Open Source. > > Perché allora non scrivere, più semplicemente: > > Data information: All information and data used to create the > system, so that a skilled person can exactly recreate the system > using the data. > > Sarebbe più semplice, permetterebbe di verificare che i dati dichiarati > corrispondano esattamente a quelli utilizzati, permetterebbe di > studiarne i bias e di decidere come modificare o arricchire i dati > per ottenere LLM diversi. > > Peraltro, sostituendo "train" con "create", la definizione > continuerebbe ad essere applicabile a nuovi metodi che non si > basino sulle techine statistiche antropomorfizzate che vanno per la > maggiore oggi. > > > Perché dunque una definizione che contraddice quella di Open Source? > > L'ignoranza informatica in questo caso è poco credibile... > > > Ma se proviamo a chiederci "cui prodest?" tutto diventa ovvio: > > https://opensource.org/sponsors > > > Giacomo >