> > Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di > LLM che restituiscono frammenti più o meno vasti di opere riconoscibili > attribuendole a persone inesistenti e magari con licenze inesistenti
Tesio, se vuole risposte di merito da me, provi a formulare le sue osservazioni in modo educato, magari si faccia aiutare da un SALAME :-) G. On Sun, 8 Sept 2024 at 15:35, Giacomo Tesio <giac...@tesio.it> wrote: > Salve Guido, > > On Sun, 8 Sep 2024 12:31:14 +0200 Guido Vetere wrote: > > > L'analogia tra i LLM e i dati (immagini, testi) compressi con o senza > > perdita è totalmente fuorviante, perché nei miliardi di parametri di > > una rete neurale non si può ricavare all'inverso il dataset di > > training, né se ne può leggere in chiaro alcun frammento. > > credo che potresti trarre giovamento da un ripasso sugli algoritmi di > compressione lossy, perché sembra sfuggirti che anche da un jpeg > fortemente compresso non puoi ricavare l'immagine originale: > > Qui trovi un esempio: > > https://upload.wikimedia.org/wikipedia/commons/3/3c/TulipanoJPEG10.jpg > > Non c'è alcun modo di ricostruire la sequenza di byte che costituiva > l'immagine originale. > > > E' vero, non si tratta di una semplice analogia: stiamo letteralmente > parlando di sistemi di compressione lossy (seppur eseguibili). > > > Quando un LLM 'rigurgita' un frammento (ma questo è un evento > > eccezionale) lo fa comunque in un processo generativo non > > deterministico in cui quel frammento diviene temporaneamente > > "attrattore" in forza delle "tracce mnestiche" che ha prodotto nei > > parametri, cioè qualche cifra decimale nelle gigantesche matrici del > > modello. > > Ma scappelate a destra o a sinistra? :-) > > Suvvia, non servono supercazzole su Nexa: ci sono migliaia di esempi di > LLM che restituiscono frammenti più o meno vasti di opere riconoscibili > attribuendole a persone inesistenti e magari con licenze inesistenti. > > La mia preferita è questa > https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR > > Ma Microsoft stessa non ne faceva mistero nel paper pubblicato > all'indomani del lancio di GitHub CopyALot, cercando disperatamente > di antropomorfizzare il software per giustificare le palesi violazioni > > https://github.blog/ai-and-ml/github-copilot/github-copilot-research-recitation/ > > > Quanto si tratti di "eventi eccezionali" è ben noto: esistono > diversi studi che dimostrano la facilità con cui è possibile tirar > fuori record presenti nei dataset di "training" (il primo che mi torna > in mente: https://arxiv.org/abs/2012.07805 ). > > > In qualsiasi caso, sarai d'accordo con me che, per essere tirati fuori, > quei record devono essere presenti dentro il LLM, seppur codificati in > forma non leggibile. > > > Quindi che piaccia o meno ad editori e a chi li sviluppa, gli LLM > rimangono rappresentazioni compresse dei dataset utilizzati durante il > "training", compressione lossy ed eseguibile, ma pur sempre di > compressione / compilazione dei dataset sorgenti si tratta. > > > > Giacomo >