> Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di
> significati, condivisione di significati) che progressivamente lega parole,
> frasi, testi al loro significato?

La relazione che lega parole al loro significato è un passo avanti nel 
funzionamento dell'IA generativa.
La mia era solo una considerazione statistico/morfologica. Provo ad argomentare 
con un esempio più "letterario".

Se Alessandro Manzoni avesse scritto i Promessi Sposi al computer avrebbe avuto 
bisogno di 85 "caratteri" diversi, tra lettere, numeri, segni, lettere 
accentate, ecc.
Nella distribuzione statistica del romanzo si passa dai 196194 'spazi' alle 
119916 'e', per finire con 3 W (Wallenstein) e una sola á (a con accento acuto) 
in: "il podestà co’ soldati era andato a reconocer la casa, y a ver si hallará 
algunos vestigios".
Bene, chiamiamo questi 85 caratteri alfabeto esteso.
Prendiamo la prima frase del testo: "Quel ramo del lago di Como, che volge a 
mezzogiorno, tra " e proviamo ad indovinare la parola di tre caratteri 
successiva.
La probabilità di riuscirci al primo tentativo è di 1/85*1/85*1/85 = 1 su 
614125. Se considerassimo solo le lettere minuscole, la probabilità scenderebbe 
a 1/24 * 1/24 * 1/24 = 1 su 13824 (24 e non 26 perché nel testo dei Promessi 
Sposi mancano k e w), ma ovviamente non possiamo limitarci alle sole lettere 
minuscole.
Ora, costruiamoci un alfabeto esteso composto oltre che da unigramma, anche da 
digramma e trigramma, scelti su base statistica.
Avremo un alfabeto esteso, composto da più di 85 elementi, mettiamo 1000 
elementi. Calcolando la probabilità, prima scegliendo i trigramma, poi 
componendo un digramma ed un unigramma, questa probabilità scenderà di molto. 
Nel test che ho fatto 186 degli elementi erano trigramma, ed uno è proprio la 
parola che stavamo cercando. Ovvero "due".
La probabilità è scesa da 1/614125 a 1/186.
Tutto questo per dire che la scelta degli elementi dell'alfabeto esteso è molto 
importante e non bisogna "sprecare" caselle.
L'alfabeto esteso di GPT2/3 è di poco più di 50000 elementi, LLaMA di Facebook 
32000, Minerva 32768, ecc.

Antonio

Reply via email to