Ciao Federico, Il giorno Tue, 2 Jul 2024 14:15:30 "Federico Leva (Nemo)" ha scritto:
> Per questo OSI sta lavorando a una Open Source AI Definition: > https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8 una definizione scritta da qualcuno che non sa (o sa fin troppo bene) cosa serve per realizzare un LLM. Infatti la definizione prescrive che: ``` The preferred form of making modifications for a machine-learning Open Source AI must include: Data information: Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data. ``` Accettare informazioni "sufficiently detailed" per ricreare un sistema "substantially" equivalente, significa aprire all'impossibilità tecnica di ricreare un sistema esattamente equivalente. Cosa che sarebbe tecnicamente possibile disponendo di TUTTE le informazioni necessarie a creare il software in questione. Infatti, entro minuscole variazioni numeriche distribuite fra miliardi di variabili (pesi), è perfettamente possibile nascondere qualsiasi bias. Solo la possibilità di riprodurre ESATTAMENTE il software in questione può permettere davvero di esercitare il diritto allo studio e alla modifica del sistema. Ora, l'OSI dovrebbe essere in condizione di comprendere che un software distribuito con sorgenti simili, persino "sostanzialmente equivalenti" a quelli usati per creare il binario (ma non esattamente quelli usati), NON è software Open Source. Perché allora non scrivere, più semplicemente: Data information: All information and data used to create the system, so that a skilled person can exactly recreate the system using the data. Sarebbe più semplice, permetterebbe di verificare che i dati dichiarati corrispondano esattamente a quelli utilizzati, permetterebbe di studiarne i bias e di decidere come modificare o arricchire i dati per ottenere LLM diversi. Peraltro, sostituendo "train" con "create", la definizione continuerebbe ad essere applicabile a nuovi metodi che non si basino sulle techine statistiche antropomorfizzate che vanno per la maggiore oggi. Perché dunque una definizione che contraddice quella di Open Source? L'ignoranza informatica in questo caso è poco credibile... Ma se proviamo a chiederci "cui prodest?" tutto diventa ovvio: https://opensource.org/sponsors Giacomo