I word embedding sono molto diversi dai co-occurrence counts, simili a quelle dei tuoi esempi. I co-occuurrence count non funzionano affatto come rappresentazione del significato delle parole. I word embedding vengono ottenuti come effetto secondario dell’allenamento di un Language Model, come i vettori nascosti che consentono al modello di stimare la probabilità di una parola in un contesto. La dimensione dei word embeddings è un valore costante prefissato, indipendente dalla lunghezza del vocabolario, com nella tua versione.
Ci vorrebbero diverse lezioni per spiegare come si calcolano i word embedding e perché funzionino in modo talmente efficace, come quelle che trovi qui: https://elearning.di.unipi.it/course/view.php?id=438 I word embedding sono composi di centinaia di dimensioni e non è ricostruibile cosa rappresenti ciascuna: sono le centinaia di sfumature/sfaccettature che tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche o chissà che altro. Con l’attention dei transformer, gli embeddings vengono calcolati in modo contestuale frase per frase, per tenere conto della polisemia delle parole in contesti diversi. > Ora il significato del termine "leggere" è leggere: l'azione che stai Questa è l’accezione di “significato” denotazionale che filosofi hanno proposto dai tempi di Platone, ma appunto non risolve il problema perché poi dovresti definire cosa sia questa denotazione e riapriremmo una discussione che in 2000 anni non sono stati in grado di risolvere. Cos’è un tavolo? Cos’è la tavolinità che distingue un tavolo da altri oggetti: avere 4 gambe, o tre, o una? E cos'è una gamba? Avere un piano: cos'è un piano? E così a ritroso. — Beppe > On 12 Oct 2023, at 18:43, Giacomo Tesio <giac...@tesio.it> wrote: > > Salve Giuseppe, > > Il giorno Thu, 12 Oct 2023 10:26:32 +0200 Giuseppe Attardi ha scritto: > >> alla base dei LLMs ci sono i word embedding, un modo per assegnare un >> significato alle parole > > non mi è chiaro come i word embedding possano catturare il significato. > > > Per chi non lo sapesse, un word embeeding è un vettore N-dimensionale > (una sequenza di N numeri) che approssima la posizione di un termine > in uno spazio euclideo progettato per massimizzare la vicinanza con > i termini usati in modo simile in contesti simili. > > Un modo per calcolarlo, consiste nell'associare ad ogni elemento del > vettore una misura (tipicamente la frequenza) di una relazione con > cui quel termime appare associato agli altri termini nel "corpus" > sorgente. > > Immagina un dataset sorgente composto da tre frasi: > > - Giuseppe scrive. > - Giuseppe legge. > - Giuseppe legge o scrive. > > Abbiamo 4 parole: "Giuseppe" alla prima posizione, "scrive" alla > seconda e "legge" alla terza, "o" alla quarta. > > I rispettivi word embedding potrebbero essere > > - Giuseppe [0, 0.5, 0.5, 0] > - scrive [1, 0, 0, 0.5] > - legge [1, 0, 0, 0.5] > - o [0, 0.5, 0.5, 0] > > All'aumentare della dimensione del dataset sorgente (il "corpus") e del > vocabolario, aumenta il numero di dimensioni dello spazio euclideo in > questione (ovvero la lunghezza di ciascun vettore) e con tecniche più > avanzate può variare la semantica degli elementi del vettore... ma la > sostanza è questa: il vettore cattura la relazione di un termine con > gli altri presenti nel vocabolario estraendola da misure estratte dal > dataset sorgente. > > > Ora il significato del termine "leggere" è leggere: l'azione che stai > compiendo (spero) mentre guardi su uno schermo la rappresentazione di > questo mio messaggio. > > Quel significato è una esperienza soggettiva complessa ed unica della > tua mente, legata alle diverse altre esperienze e riflessioni della tua > vita. > > > Analogamente le parole "amare" o "morte" non derivano il proprio > significato dalla relazione che hanno con altre parole, ma dalle > esperienze umane che convenzionalmente esprimono. > > Anche parole come "zero" o "spin" (quantistico), pur non derivando > direttamente da esperienze fisiche, derivano il proprio significato da > esperienze soggettive di pensiero comunicabile (aka le "informazioni" > che cerchiamo di esprimere attraverso di esse). > > > In nessun caso la relazione fra le parole ne costituisce il senso. > > Infatti possiamo facilmente definire nuove parole per riferirci ad una > qualsiasi esperienza condivisa, senza nemmeno condividere una > definizione e ci capiremo benissimo. > > Se andiamo a prenderci un caffé e ci diciamo "da adesso in poi questa > azione la chiamiamo 'fefare'", potremo fefare periodicamente o > discutere dove fefare meglio senza alcun bisogno di analizzare la > frequenza del termine in relazione agli altri termini del nostro > vocabolario per dedurre il significato della parola stessa. > > > Dunque i word embedding non rappresentano alcun significato, ma > al massimo relazioni statistiche fra significanti. > > > Il "significato" può esistere solo nelle menti di noi esseri umani, come > esperienza soggettiva di pensiero comunicabile (l'informazione, appunto) > > >> ...the huge number of features interacting in very complicated way to >> predict the features of the next word and from that make a prediction >> about the probability of the next word, the point is that is >> understanding, at least I believe that is understanding. >> I believe that is what our brains are doing. > > "I believe". > > Mulder con più onestà intellettuale avrebbe detto "I WANT to believe". > > >> È tratto da una conversazione con Andrew Ng, che si dichiara >> d’accordo. > > Ma dai? il gatto e la volpe... :-) > > Potremmo considerarlo un corollario della nota osservazione di Upton > Sinclair [1] > > "It's straightforward to get a man to believe something when his salary > and status depend on spreading such belief." > > > Giacomo > > [1] "It is difficult to get a man to understand something, when his > salary depends on his not understanding it." _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa