Re: [nexa] [Junk released by Allowed List] nexa Digest, Vol 191, Issue 12

Giuseppe Attardi Tue, 04 Mar 2025 04:10:13 -0800

Per capire ciò che intendo, dai un’occhiata alle Tabelle 6 e 7 in questo articolo, che introdusse la tecnica di calcolo dei word embedding tramite un Language Model:

https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

Non conta solo cosa sono, ma come si ottengono.

—

On 4 Mar 2025, at 12:28, nexa-requ...@server-nexa.polito.it wrote:

From: maurizio lana <maurizio.l...@uniupo.it>
To: Guido Vetere <vetere.gu...@gmail.com>
Cc: nexa@server-nexa.polito.it
Subject: Re: [nexa] Perché Richard Stallman sbaglia in tema di
intelligenza artificiale
Message-ID: <bc26eb9b-a1dc-4ef4-92f5-f44b3eb93...@uniupo.it>
Content-Type: text/plain; charset="utf-8"; Format="flowed"

Guido, conta molto sapere che quel che oggi possiamo dire così
"addestrare (fine-tuning) un modello anche piccolo e 'open' per fargli
estrarre frame verbali da qualsiasi frase su interi corpora testuali con
una certa accuratezza, e poi ci si potrebbe divertire (so to say) a
vedere come variano nelle dimensioni temporali, sociali, ecc."
non è nuovo nel concetto.

Guido, Beppe, nel toolkit dell'analisi testuale c'è molto di più delle
collocazioni di padre Busa, o delle concordanze: cfr. ad esempio i 5
volumi di J.P. Benzécri, Pratique de l'analyse des données, Dunod,
(intenzionalmente cito un matematico francese, e di 45 anni fa...) -
collocare le parole in uno spazio vettoriale multidimensionale per
descriverne con strumenti matematici (non statistici) l'uso e le
connessioni...

che è word embedding cit. Wikipedia: "spazio in cui i vettori delle
parole sono più vicini se le parole occorrono negli stessi contesti
linguistici, cioè se sono riconosciute come semanticamente più simili
secondo l'ipotesi della semantica distribuzionale".

queste cose, un po' più complesse di quelle di p. Busa 😄, le facevamo
ben prima che arrivassero sam o elon :-)

Maurizio

Il 04/03/25 11:26, Guido Vetere ha scritto:
Maurizio, se è per questo le collocazioni le faceva anche Padre Busa
negli anni '60 con le schede perforate :-)
C'è un momento in cui la quantità diventa qualità -- non fatemi fare
sempre il marxista, dai! :-)))
G.

On Mon, 3 Mar 2025 at 19:28, maurizio lana <maurizio.l...@uniupo.it>
wrote:

   Il 02/03/25 16:59, Guido Vetere ha scritto:
   Io penso che a una moderna lessicografia questa cosa possa
   interessare moltissimo. Prendiamo ad esempio il censimento e la
   registrazione delle valenze verbali ('frame' se volete), che
   Sabatini e Coletti hanno potuto (con fatica) solo abbozzare del
   loro famoso dizionario. Oggi si potrebbe addestrare (fine-tuning)
   un modello anche piccolo e 'open' per fargli estrarre frame
   verbali da qualsiasi frase su interi corpora testuali con una
   certa accuratezza, e poi ci si potrebbe divertire (so to say) a
   vedere come variano nelle dimensioni temporali, sociali, ecc.
   ehmmm, ma questo in cosa differisce da quello che da tempo si può
   fare (ma quasi nessuno lo fa!) con qualsiasi programma o web
   service di analisi testuale: cooccorrenze, contesti, concordanza
   KWIC, ordinamento e selezione in base alle parole del contesto
   definito con ampiezza a piacere a monte e a valle della keyword
   (=parola cercata) ?

   maurizio

Re: [nexa] [Junk released by Allowed List] nexa Digest, Vol 191, Issue 12

Reply via email to