I linguisti hanno sempre dedicato molto lavoro al censimento quantitativo delle parole e del loro uso. Non parlo solo dei comparatisti e dei positivisti ottocenteschi, ma anche ai distribuzionisti statunitensi che approcciavano con metodi quantitativi il problema di studiare le lingue dei nativi americani, prive di grammatiche e dizionari. In Italia, negli anni '90, De Mauro fu promotore di un Lessico di Frequenza dell'Italiano Parlato (LIP) e del Grande Dizionario Italiano dell'Uso (GRADIT).
Il lavoro dei lessicografi (per come l'ho conosciuto) è sempre stato un compromesso tra introspezione, speculazione e osservazione delle evidenze scritte e parlate. Ma era su queste ultime che la sensibilità democratica della scuola demauriana si appuntava. Il censimento lenticolare di un fenomeno così vasto e pervasivo com'è quell'ordigno combinatorio che si chiama linguaggio, tuttavia, superava le forze di qualsiasi redazione dizionariale, sia pur valorosa. Oggi ci troviamo per le mani l'elaborato di algoritmi che restituiscono, con gli embedding, l'impronta distribuzionale delle parole su immensi corpora testuali, e, con i meccanismi di attenzione, le dipendenze non solo sintattiche ma semantiche (per una nozione 'sui generis' di semantica, che andrà chiarita) tra i token (più o i meno morfemi) all'interno di ciascuna frase. Io penso che a una moderna lessicografia questa cosa possa interessare moltissimo. Prendiamo ad esempio il censimento e la registrazione delle valenze verbali ('frame' se volete), che Sabatini e Coletti hanno potuto (con fatica) solo abbozzare del loro famoso dizionario. Oggi si potrebbe addestrare (fine-tuning) un modello anche piccolo e 'open' per fargli estrarre frame verbali da qualsiasi frase su interi corpora testuali con una certa accuratezza, e poi ci si potrebbe divertire (so to say) a vedere come variano nelle dimensioni temporali, sociali, ecc. La linguistica computazionale basata su corpora non è una novità, ma oggi potrebbe ottenere risultati molto interessanti con un uso consapevole di queste nuove risorse. I risultati di un esperimento di un mio laureato, per chi ha voglia di leggere: Subcategorization of Italian Verbs with LLMs and T-PAS. https://ceur-ws.org/Vol-3878/99_main_long.pdf G. On Sun, 2 Mar 2025 at 15:54, abregni <abre...@iperv.it> wrote: > Ciao, Giacomo. > > Il punto è che a me risponde senza copiare articoli, perché **gli chiedo > altro**. > E la macchina chiaramente raccoglie stralci qua e là (avendo una base di > conoscenza ben più ampia della mia), ma li giustappone in modo -- almeno > per me -- non copiato. Fa un onesto e fottuto lavoro, ben diverso da > quello banalotto che delinei tu. > In più, per me rimane valida l'ipotesi di Guido, ovvero di indagare come > tratti il linguaggio, perché mi sembra una ottima occasione per avere > una diversa prospettiva sul tema. > > Anche Internet e web sono un banale sistema di comunicazione il primo, e > una spatafiata di repository il secondo, ...ma io evito di banalizzarli > così. > > > > Il 2025-03-02 14:17 Giacomo Tesio ha scritto: > > No, Alfredo, > > > > On Sun, 02 Mar 2025 10:33:13 +0100 abregni <abre...@iperv.it> wrote: > > > >> abbiamo di fronte, fatta da noi, ma "divertentemente" (per dirla > >> alla Cetto la Qualunque) in buona parte incompresa, una macchina che > >> parla *in fretta* senza capire quello che dice, ma la dice -- su una > >> base **puramente statistica** (non "compresa") di conoscenza verbale > >> e sostanziale "acquisita" -- molto ma molto bene. > > > > Abbiamo di fronte una compressione eseguibile (con perdita) compilata a > > partire da petabyte di testi sorgente come "Entropic Philosophy - > > Chaos, > > Breakdown, and Creation" di Shannon M. Mussett. > > > > L'hai letto? > > Scommetto un caffé di no. > > > > > > Tale archivio eseguibile è un software che (eseguito dalla macchina > > virtuale per cui è compilato) estrae sequenze di caratteri plausibili > > perché statisticamente simili a quelle contenute nei testi sorgente, > > di cui spesso ripropone vasti stralci alla lettera. > > > > > > Il fatto che nessun essere umano abbia letto tutti i testi sorgente, > > rende estremamente improbabile che l'output venga riconosciuto da chi > > lo riceve. > > > > > > Improbabile, ma non impossibile, come avvenuto, ad esempio, allo > > sviluppatore Ruby On Rails che ho menzionato nella mail precedente [1], > > ad Armin Ronacher con il sorgente di Quake III Arena [2] o agli editori > > del NYT nella causa contro Open AI [3]. > > > >> - Intanto, scrivono bene; > > > > Al di là degli aspetti legali e delle conseguenze sociali, le macchine > > di cui stiamo parlando NON "parla ... su una base ... di conoscenza > > verbale e sostanzialmente acquisita" ma un grosso archivio lossy che > > riproduce stralci di testi che non abbiamo letto, senza citarli. > > > > Sono eseguibili compilati a partire dai testi sorgente di cui > > contengono vasti stralci codificati in matrici numeriche. > > E il loro output è un collage statisticamente plausibile di tali > > stralci. > > > > Entrambi, matrici e output, derivano meccanicamente da tali sorgenti. > > Che si voglia o meno riconoscerli come opere derivate. > > > >> - Poi, se dicono cazzate, sono cazzate veniali; > > > > Non "dicono cazzate" come non hanno allucinazioni. > > > > Il loro output non ha alcun significato, per cui non è né giusto né > > sbagliato: l'errore, "cazzata" o "allucinazione, che dir si voglia, è > > di chi cerca di interpretarlo, attribuendogli un significato. > > > > Che poi questi software siano progettati proprio per ingannare la mente > > umana è un altro discorso: sebbene il loro output non abbia un > > significato intrinseco, chi lo rende disponibile a terzi deve essere > > responsabile dell'interpretazione che questi terzi gli daranno, come se > > avesse scritto di proprio pugno quella sequenza di simboli. > > > > Ad esempio, Open AI pubblica l'output del proprio LLM su un sito web e > > ne deve rispondere come se lo scrivesse Altman in persona. > > Ma stiamo divagando. > > > > > > Definire "cazzate" i punti in cui la tua interpretazione dell'output si > > discosta dalla tua conoscenza della realtà, è una cazzata. > > Stai leggendo una sequenza di frammenti di chissà quali testi: anche se > > i testi originali non avessero contenuto errori, ciò che stai leggendo > > li contiene anche solo a causa degli artefatti di compressione. > > > > > >> Infine, riescono a fare cose PER ME (e qui, solo qui, gioca la parola > >> "profano", perché profano sono, ma le cose ritengo di capirle > >> benissimo, ...come il matto che era matto, ma non era scemo) > >> **inaspettate**. > > > > Appunto, non te le aspetti perché non comprendi come funzionano. > > > > Se lo comprendessi, non ti sorprenderebbero affatto. > > E non gli attribuiresti intelligenza, apprendimento o altre facoltà. > > > > > > E' un archivio lossy eseguibile. > > > > Una tecnologia di compressione certamente interessante, un hack sociale > > brillante quanto aberrante, ed una stratosferica bolla speculativa > > pronta ad esplodere. > > > > Ma niente di più. > > > > > > Giacomo > > > > [1] > > < > https://bengarcia.dev/making-o1-o3-and-sonnet-3-7-hallucinate-for-everyone > > > > > > [2] https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR > > > > [3] in allegato, fianco a fianco, un output di GPT-4 e l'articolo > > sorgente del NYT, comparazione portata come prova al processo > > > > > https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html > > (best viewed without JavaScript ;-) >