Salve Giuseppe, Il giorno Thu, 12 Oct 2023 10:26:32 +0200 Giuseppe Attardi ha scritto:
> alla base dei LLMs ci sono i word embedding, un modo per assegnare un > significato alle parole non mi è chiaro come i word embedding possano catturare il significato. Per chi non lo sapesse, un word embeeding è un vettore N-dimensionale (una sequenza di N numeri) che approssima la posizione di un termine in uno spazio euclideo progettato per massimizzare la vicinanza con i termini usati in modo simile in contesti simili. Un modo per calcolarlo, consiste nell'associare ad ogni elemento del vettore una misura (tipicamente la frequenza) di una relazione con cui quel termime appare associato agli altri termini nel "corpus" sorgente. Immagina un dataset sorgente composto da tre frasi: - Giuseppe scrive. - Giuseppe legge. - Giuseppe legge o scrive. Abbiamo 4 parole: "Giuseppe" alla prima posizione, "scrive" alla seconda e "legge" alla terza, "o" alla quarta. I rispettivi word embedding potrebbero essere - Giuseppe [0, 0.5, 0.5, 0] - scrive [1, 0, 0, 0.5] - legge [1, 0, 0, 0.5] - o [0, 0.5, 0.5, 0] All'aumentare della dimensione del dataset sorgente (il "corpus") e del vocabolario, aumenta il numero di dimensioni dello spazio euclideo in questione (ovvero la lunghezza di ciascun vettore) e con tecniche più avanzate può variare la semantica degli elementi del vettore... ma la sostanza è questa: il vettore cattura la relazione di un termine con gli altri presenti nel vocabolario estraendola da misure estratte dal dataset sorgente. Ora il significato del termine "leggere" è leggere: l'azione che stai compiendo (spero) mentre guardi su uno schermo la rappresentazione di questo mio messaggio. Quel significato è una esperienza soggettiva complessa ed unica della tua mente, legata alle diverse altre esperienze e riflessioni della tua vita. Analogamente le parole "amare" o "morte" non derivano il proprio significato dalla relazione che hanno con altre parole, ma dalle esperienze umane che convenzionalmente esprimono. Anche parole come "zero" o "spin" (quantistico), pur non derivando direttamente da esperienze fisiche, derivano il proprio significato da esperienze soggettive di pensiero comunicabile (aka le "informazioni" che cerchiamo di esprimere attraverso di esse). In nessun caso la relazione fra le parole ne costituisce il senso. Infatti possiamo facilmente definire nuove parole per riferirci ad una qualsiasi esperienza condivisa, senza nemmeno condividere una definizione e ci capiremo benissimo. Se andiamo a prenderci un caffé e ci diciamo "da adesso in poi questa azione la chiamiamo 'fefare'", potremo fefare periodicamente o discutere dove fefare meglio senza alcun bisogno di analizzare la frequenza del termine in relazione agli altri termini del nostro vocabolario per dedurre il significato della parola stessa. Dunque i word embedding non rappresentano alcun significato, ma al massimo relazioni statistiche fra significanti. Il "significato" può esistere solo nelle menti di noi esseri umani, come esperienza soggettiva di pensiero comunicabile (l'informazione, appunto) > ...the huge number of features interacting in very complicated way to > predict the features of the next word and from that make a prediction > about the probability of the next word, the point is that is > understanding, at least I believe that is understanding. > I believe that is what our brains are doing. "I believe". Mulder con più onestà intellettuale avrebbe detto "I WANT to believe". > È tratto da una conversazione con Andrew Ng, che si dichiara > d’accordo. Ma dai? il gatto e la volpe... :-) Potremmo considerarlo un corollario della nota osservazione di Upton Sinclair [1] "It's straightforward to get a man to believe something when his salary and status depend on spreading such belief." Giacomo [1] "It is difficult to get a man to understand something, when his salary depends on his not understanding it." _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa