Buongiorno.

Forse dovrebbero smettere di dire che chatGPT commette "errori" o "sbaglia".


Non commette alcun errore, quando ci sembra che ne commetta:
non sta facendo nulla di diverso da quello che fa sempre.

Anzi, gli "errori" ci consentono di vedere come funziona e che cos'è.


Ciò che è fa sì che non si possa usarla per ottenere informazioni o soluzioni o 
risposte.


A meno che non si abbia già l'abitudine di affidarsi a una palla magica delle 
risposte.


Un saluto,

Daniela



________________________________
Da: nexa <nexa-boun...@server-nexa.polito.it> per conto di 380° 
<g...@biscuolo.net>
Inviato: martedì 14 febbraio 2023 12:08
A: nexa@server-nexa.polito.it
Oggetto: [nexa] oh quanto è intelligente l'AI! (was Re: ChatGPT: five 
priorities for research)

Buongiorno,

Antonio <anto...@piumarossa.it> writes:

[...]

> E' la /moda/ del momento, mettere alla prova ChatGPT nel superamento di
> esami scolastici, di abilitazione, test per la selezione del personale,
> ecc.:

Sì ma _solo_ in lingua inglese, mi raccomando!

Se è per questo si divertono anche a fargli il test IQ:
https://twitter.com/sergeyi49013776/status/1598430479878856737?lang=en

Leggendo il tweet-thread si vede benissimo che il più grosso problema di
ChatGPT è quello di non capire le domande... a volte in modo
incomprensibile per un umano (la sintesi della comprensione sicuramente
funziona peggio della sintesi della risposta)

Per quanto sia affidabile tale esperimento [3] fatto una volta sola, il
punteggio IQ è 83 ed è nel ragne "scarso", ma è ragionevole pensare che
ChatGPT possa essere corretto e fare meglio in un prossimo futuro.

Superficialmente potrebbe sembrare che questi studi siano un modo per
mettere alla prova ChatGPT ma a pensarci meglio sono i test [4] a essere
messi alla prova.

Detto in altro modo: se chiedi a un umano di **eseguire**
schemi/modelli/trucchi sviluppati per massimizzare i _punteggi_ ottenuti
nei test (standardizzati) di "valutazione", ci sarà **sempre** una
macchina di Turing in grado di farlo _molto_ meglio.

...è _scientifico_:

https://www.roars.it/online/il-modello-di-rasch/

«I test INVALSI sono scientificamente solidi? I limiti del modello di
Rasch»

--8<---------------cut here---------------start------------->8---

[...] Per la quasi totalità dell’opinione pubblica, ma anche degli
insegnanti e degli accademici, l’elaborazione dei risultati dei test
standardizzati è una “scatola nera” il cui corretto funzionamento viene
assunto sulla fiducia. Chi d’altronde avrebbe le competenze per entrare
nel merito dei marchingegni statistici utilizzati?  Anche chi ne
contesta l’uso a causa delle distorsioni che provoca nelle politiche
educative raramente ne mette in dubbio la correttezza.

[...] Estrarre delle informazioni dai test standardizzati non è così
semplice come leggere la temperatura sulla scala graduata di un
termometro.

[...] Ora, i termometri dei test PISA e dei test INVALSI si servono
dello stesso principio di misurazione della “temperatura”, ovvero del
cosiddetto “modello di Rasch”, che specifica appunto le ipotesi
matematico-statistiche utilizzate nella procedura di calibrazione.

[...] “The best we can say about Pisa rankings is that they are useless”
conclude Kreiner.

--8<---------------cut here---------------end--------------->8---
(l'articolo entra nel merito scientifico, se interessa, compresa la
fantasmagorica "Oggettività specifica"... e qui entriamo in
epistemologia)

Validità scientifica o meno, per /qualsiasi/ modello statistico (Rasch o
altro IRT [5]) utilizzato per costruire test standard ci sarà _sempre_
(potenzialmente) una macchina di Turing programmata statisticamente
(detta AI) in grado di ottenere il massimo risultato a quel test... SE
ha abbastanza dati per sintetizzare una risposta.

--8<---------------cut here---------------start------------->8---

Credo che una discussione organica sui test debba essere fatta sul piano
più elevato dei rapporti tra strumenti valutativi e processi di
insegnamento/apprendimento,

--8<---------------cut here---------------end--------------->8---

scrive Enrico Rogora nell'articolo sopra citato

E credo che questa frase sintetizzi il nocciolo della quesitone:

--8<---------------cut here---------------start------------->8---

3. Standardized tests don’t provide any feedback on how to perform
better. The results aren’t even given back to the teachers and students
until months later, and there are no instructions provided by test
companies on how to improve these test scores.

--8<---------------cut here---------------end--------------->8---
(tratto da «15 Reasons Why Standardized Tests are Problematic» [6])

Dopotutto ChatGPT o qualsiasi altro sistema SALAMI non saprebbe proprio
che farsene del "feedback" visto che usa sistemi di "apprendimento"
statistico invece di apprendere dagli errori.  Ecco perché chiamare
ChatGPT "generative AI" è definitivamente fuorviante, non genera proprio
un bel niente... _risequenzia_ (cit).

Aggià che scemo, ma qui stiamo parlando appunto di dare un punteggio per
fare una classifica, mica di apprendimento... quindi che c'è da stupirsi
se una istanza AI ottiene punteggi paragonabili a quelli umani e in
futuro _senza dubbio_ batterà sempre gli umani nei test standardizzati?

Ecco che allora si avvera il sogno dei pre-transumanisti: "siccome nei
test standardizzati che servono per stabilire chi è più adatto a un
determinato lavoro l'AI ottiene migliori risultati, allora possiamo fare
a meno di assumere umani e li sostituiamo con l'AI".

Forse ci dobbiamo fare qualche domanda sul tipo di lavoro che viene
chiesto agli umani di svolgere?!?

https://www.fastcompany.com/90844285/chatgpt-has-an-iq-of-83-yet-its-coming-for-our-jobs

«ChatGPT has an IQ of 83, yet it’s coming for our jobs. What does that
say about the work we do?»

--8<---------------cut here---------------start------------->8---

It is very likely that many of us will see some of our work replaced by
AI, and that hurts. But it says absolutely nothing about the people
working those jobs and whether or not they’re skilled. It says
everything, however, about our current system and about how inadequate
many of the jobs that we’ve created are.

If something with an IQ of 83 can take over our jobs, society as a whole
is not operating at its full potential. I believe that generative AI is
both a jolting reality check, and a potential solution to help make our
jobs more meaningful.

Many workers are drowned in menial, repetitive tasks, often carried out
on autopilot and without much critical thinking.

[...] This kind of repetitive busy work takes up time that could be
spent doing more meaningful work such as fleshing out that new idea
you’ve had in the back of your head for months, or exploring an app you
think could streamline your projects.

As a result, we often stifle our own progress because we’re starved of
the time and resources to think big.

A lot of repetitive work could eventually be replaced by a ChatGPT bot
[...]

--8<---------------cut here---------------end--------------->8---

Ovviamente questo ragionamento vale per tutti i compiti ripetitivi che
possono essere automatizzati, mica solo da ChatGPT... solo che chi
osanna ChatGPT deve anche capire che la sua capacità di sintesi è
_limitata_ e che a volte (spesso?) semplicemente sbaglia... e senza
correggerlo continuerà a sbagliare in eterno... e NON si autocorregge.

Detto in altro modo: se chiedi a un umano _solo_ di **eseguire** il
lavoro secondo modelli/schemi/trucchi sviluppati (da altri) per
massimizzare i _punteggi_ ottenuti nei test (standardizzati) di
"valutazione" della performance lavorativa, ci sarà **sempre** una
macchina di Turing in grado di farlo _molto_ meglio, ripetizione degli
errori inclusa.

https://nooscope.ai/

Per parafrasare Enrico Rogora citato sopra: «Credo che una discussione
organica sul lavoro debba essere fatta sul piano più elevato dei
rapporti tra strumenti valutativi (del lavoro) e processi di svolgimento
e apprendimento ("feedback" che accumulato diventa esperienza) e loro
relazione con la società e la cultura, con particolare attenzione al
rapporto tra il _valore_ del lavoro e la sua monetizzazione in "valore
di scambio".»

David Graeber: «Huge swathes of people, in Europe and North America in
particular, spend their entire working lives performing tasks they
secretly believe do not really need to be performed» [7]

> ChatGPT can (almost) pass the US Medical Licensing Exam [1]

Ma per forza: copia (e ha la calcolatrice incorporata)! :-D

Date una calcolatrice e accesso illimitato al web a tutti gli esaminandi
umani a cui somministrate i test e poi vediamo, eh?!? :-P

...se poi gli esaminandi avessero a disposizione un database con salvate
**tutte** le enciclopedie del mondo (tra)scritte in RDF e sapessero
usare le query SPARQL come chattano su Instagram... semplicemente non ci
sarebbe storia. B-)

[...]

saluti, 380°


> [1] https://www.eurekalert.org/news-releases/978878
> [2]
> https://www.sciencemediacentre.org/expert-reaction-to-study-on-chatgpt-almost-passing-the-us-medical-licensing-exam/

[3] https://en.wikipedia.org/wiki/Intelligence_quotient#Reliability_and_validity

[4] attenzione NON ho scritto le valutazioni date da altri umani frutto
di interrogazioni, compiti in classe, collaborazione, osservazione
inseriti in un percorso scolastico/lavorativo di diversi mesi e
anni... cosa a cui NON è stata sottoposta ChatGPT, se qualcuno volesse
"divertirsi"

[5] https://en.wikipedia.org/wiki/Item_response_theory, non trovo
nemmeno che tipo di test utilizzi https://iqtest.com/

[6] https://www.ascd.org/blogs/15-reasons-why-standardized-tests-are-problematic

[7] 
https://web.archive.org/web/20191211140746/http://www.strike.coop/bullshit-jobs

--
380° (Giovanni Biscuolo public alter ego)

«Noi, incompetenti come siamo,
 non abbiamo alcun titolo per suggerire alcunché»

Disinformation flourishes because many people care deeply about injustice
but very few check the facts.  Ask me about <https://stallmansupport.org>.
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to