Guido, conta molto sapere che quel che oggi possiamo dire così
"addestrare (fine-tuning) un modello anche piccolo e 'open' per fargli
estrarre frame verbali da qualsiasi frase su interi corpora testuali con
una certa accuratezza, e poi ci si potrebbe divertire (so to say) a
vedere come variano nelle dimensioni temporali, sociali, ecc."
non è nuovo nel concetto.
Guido, Beppe, nel toolkit dell'analisi testuale c'è molto di più delle
collocazioni di padre Busa, o delle concordanze: cfr. ad esempio i 5
volumi di J.P. Benzécri, Pratique de l'analyse des données, Dunod,
(intenzionalmente cito un matematico francese, e di 45 anni fa...) -
collocare le parole in uno spazio vettoriale multidimensionale per
descriverne con strumenti matematici (non statistici) l'uso e le
connessioni...
che è word embedding cit. Wikipedia: "spazio in cui i vettori delle
parole sono più vicini se le parole occorrono negli stessi contesti
linguistici, cioè se sono riconosciute come semanticamente più simili
secondo l'ipotesi della semantica distribuzionale".
queste cose, un po' più complesse di quelle di p. Busa 😄, le facevamo
ben prima che arrivassero sam o elon :-)
Maurizio
Il 04/03/25 11:26, Guido Vetere ha scritto:
Maurizio, se è per questo le collocazioni le faceva anche Padre Busa
negli anni '60 con le schede perforate :-)
C'è un momento in cui la quantità diventa qualità -- non fatemi fare
sempre il marxista, dai! :-)))
G.
On Mon, 3 Mar 2025 at 19:28, maurizio lana <maurizio.l...@uniupo.it>
wrote:
Il 02/03/25 16:59, Guido Vetere ha scritto:
Io penso che a una moderna lessicografia questa cosa possa
interessare moltissimo. Prendiamo ad esempio il censimento e la
registrazione delle valenze verbali ('frame' se volete), che
Sabatini e Coletti hanno potuto (con fatica) solo abbozzare del
loro famoso dizionario. Oggi si potrebbe addestrare (fine-tuning)
un modello anche piccolo e 'open' per fargli estrarre frame
verbali da qualsiasi frase su interi corpora testuali con una
certa accuratezza, e poi ci si potrebbe divertire (so to say) a
vedere come variano nelle dimensioni temporali, sociali, ecc.
ehmmm, ma questo in cosa differisce da quello che da tempo si può
fare (ma quasi nessuno lo fa!) con qualsiasi programma o web
service di analisi testuale: cooccorrenze, contesti, concordanza
KWIC, ordinamento e selezione in base alle parole del contesto
definito con ampiezza a piacere a monte e a valle della keyword
(=parola cercata) ?
maurizio
------------------------------------------------------------------------
il pubblico uso della propria ragione deve sempre essere libero
immanuel kant
------------------------------------------------------------------------
Maurizio Lana
Università del Piemonte Orientale
Dipartimento di Studi Umanistici
Piazza Roma 36 - 13100 Vercelli
------------------------------------------------------------------------
un profumo di pietra venuto dalle montagne
nicolas bouvier
------------------------------------------------------------------------
Maurizio Lana
Università del Piemonte Orientale
Dipartimento di Studi Umanistici
Piazza Roma 36 - 13100 Vercelli