> Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di > significati, condivisione di significati) che progressivamente lega parole, > frasi, testi al loro significato?
La relazione che lega parole al loro significato è un passo avanti nel funzionamento dell'IA generativa. La mia era solo una considerazione statistico/morfologica. Provo ad argomentare con un esempio più "letterario". Se Alessandro Manzoni avesse scritto i Promessi Sposi al computer avrebbe avuto bisogno di 85 "caratteri" diversi, tra lettere, numeri, segni, lettere accentate, ecc. Nella distribuzione statistica del romanzo si passa dai 196194 'spazi' alle 119916 'e', per finire con 3 W (Wallenstein) e una sola á (a con accento acuto) in: "il podestà co’ soldati era andato a reconocer la casa, y a ver si hallará algunos vestigios". Bene, chiamiamo questi 85 caratteri alfabeto esteso. Prendiamo la prima frase del testo: "Quel ramo del lago di Como, che volge a mezzogiorno, tra " e proviamo ad indovinare la parola di tre caratteri successiva. La probabilità di riuscirci al primo tentativo è di 1/85*1/85*1/85 = 1 su 614125. Se considerassimo solo le lettere minuscole, la probabilità scenderebbe a 1/24 * 1/24 * 1/24 = 1 su 13824 (24 e non 26 perché nel testo dei Promessi Sposi mancano k e w), ma ovviamente non possiamo limitarci alle sole lettere minuscole. Ora, costruiamoci un alfabeto esteso composto oltre che da unigramma, anche da digramma e trigramma, scelti su base statistica. Avremo un alfabeto esteso, composto da più di 85 elementi, mettiamo 1000 elementi. Calcolando la probabilità, prima scegliendo i trigramma, poi componendo un digramma ed un unigramma, questa probabilità scenderà di molto. Nel test che ho fatto 186 degli elementi erano trigramma, ed uno è proprio la parola che stavamo cercando. Ovvero "due". La probabilità è scesa da 1/614125 a 1/186. Tutto questo per dire che la scelta degli elementi dell'alfabeto esteso è molto importante e non bisogna "sprecare" caselle. L'alfabeto esteso di GPT2/3 è di poco più di 50000 elementi, LLaMA di Facebook 32000, Minerva 32768, ecc. Antonio