Buongiorno.
Forse dovrebbero smettere di dire che chatGPT commette "errori" o "sbaglia". Non commette alcun errore, quando ci sembra che ne commetta: non sta facendo nulla di diverso da quello che fa sempre. Anzi, gli "errori" ci consentono di vedere come funziona e che cos'è. Ciò che è fa sì che non si possa usarla per ottenere informazioni o soluzioni o risposte. A meno che non si abbia già l'abitudine di affidarsi a una palla magica delle risposte. Un saluto, Daniela ________________________________ Da: nexa <nexa-boun...@server-nexa.polito.it> per conto di 380° <g...@biscuolo.net> Inviato: martedì 14 febbraio 2023 12:08 A: nexa@server-nexa.polito.it Oggetto: [nexa] oh quanto è intelligente l'AI! (was Re: ChatGPT: five priorities for research) Buongiorno, Antonio <anto...@piumarossa.it> writes: [...] > E' la /moda/ del momento, mettere alla prova ChatGPT nel superamento di > esami scolastici, di abilitazione, test per la selezione del personale, > ecc.: Sì ma _solo_ in lingua inglese, mi raccomando! Se è per questo si divertono anche a fargli il test IQ: https://twitter.com/sergeyi49013776/status/1598430479878856737?lang=en Leggendo il tweet-thread si vede benissimo che il più grosso problema di ChatGPT è quello di non capire le domande... a volte in modo incomprensibile per un umano (la sintesi della comprensione sicuramente funziona peggio della sintesi della risposta) Per quanto sia affidabile tale esperimento [3] fatto una volta sola, il punteggio IQ è 83 ed è nel ragne "scarso", ma è ragionevole pensare che ChatGPT possa essere corretto e fare meglio in un prossimo futuro. Superficialmente potrebbe sembrare che questi studi siano un modo per mettere alla prova ChatGPT ma a pensarci meglio sono i test [4] a essere messi alla prova. Detto in altro modo: se chiedi a un umano di **eseguire** schemi/modelli/trucchi sviluppati per massimizzare i _punteggi_ ottenuti nei test (standardizzati) di "valutazione", ci sarà **sempre** una macchina di Turing in grado di farlo _molto_ meglio. ...è _scientifico_: https://www.roars.it/online/il-modello-di-rasch/ «I test INVALSI sono scientificamente solidi? I limiti del modello di Rasch» --8<---------------cut here---------------start------------->8--- [...] Per la quasi totalità dell’opinione pubblica, ma anche degli insegnanti e degli accademici, l’elaborazione dei risultati dei test standardizzati è una “scatola nera” il cui corretto funzionamento viene assunto sulla fiducia. Chi d’altronde avrebbe le competenze per entrare nel merito dei marchingegni statistici utilizzati? Anche chi ne contesta l’uso a causa delle distorsioni che provoca nelle politiche educative raramente ne mette in dubbio la correttezza. [...] Estrarre delle informazioni dai test standardizzati non è così semplice come leggere la temperatura sulla scala graduata di un termometro. [...] Ora, i termometri dei test PISA e dei test INVALSI si servono dello stesso principio di misurazione della “temperatura”, ovvero del cosiddetto “modello di Rasch”, che specifica appunto le ipotesi matematico-statistiche utilizzate nella procedura di calibrazione. [...] “The best we can say about Pisa rankings is that they are useless” conclude Kreiner. --8<---------------cut here---------------end--------------->8--- (l'articolo entra nel merito scientifico, se interessa, compresa la fantasmagorica "Oggettività specifica"... e qui entriamo in epistemologia) Validità scientifica o meno, per /qualsiasi/ modello statistico (Rasch o altro IRT [5]) utilizzato per costruire test standard ci sarà _sempre_ (potenzialmente) una macchina di Turing programmata statisticamente (detta AI) in grado di ottenere il massimo risultato a quel test... SE ha abbastanza dati per sintetizzare una risposta. --8<---------------cut here---------------start------------->8--- Credo che una discussione organica sui test debba essere fatta sul piano più elevato dei rapporti tra strumenti valutativi e processi di insegnamento/apprendimento, --8<---------------cut here---------------end--------------->8--- scrive Enrico Rogora nell'articolo sopra citato E credo che questa frase sintetizzi il nocciolo della quesitone: --8<---------------cut here---------------start------------->8--- 3. Standardized tests don’t provide any feedback on how to perform better. The results aren’t even given back to the teachers and students until months later, and there are no instructions provided by test companies on how to improve these test scores. --8<---------------cut here---------------end--------------->8--- (tratto da «15 Reasons Why Standardized Tests are Problematic» [6]) Dopotutto ChatGPT o qualsiasi altro sistema SALAMI non saprebbe proprio che farsene del "feedback" visto che usa sistemi di "apprendimento" statistico invece di apprendere dagli errori. Ecco perché chiamare ChatGPT "generative AI" è definitivamente fuorviante, non genera proprio un bel niente... _risequenzia_ (cit). Aggià che scemo, ma qui stiamo parlando appunto di dare un punteggio per fare una classifica, mica di apprendimento... quindi che c'è da stupirsi se una istanza AI ottiene punteggi paragonabili a quelli umani e in futuro _senza dubbio_ batterà sempre gli umani nei test standardizzati? Ecco che allora si avvera il sogno dei pre-transumanisti: "siccome nei test standardizzati che servono per stabilire chi è più adatto a un determinato lavoro l'AI ottiene migliori risultati, allora possiamo fare a meno di assumere umani e li sostituiamo con l'AI". Forse ci dobbiamo fare qualche domanda sul tipo di lavoro che viene chiesto agli umani di svolgere?!? https://www.fastcompany.com/90844285/chatgpt-has-an-iq-of-83-yet-its-coming-for-our-jobs «ChatGPT has an IQ of 83, yet it’s coming for our jobs. What does that say about the work we do?» --8<---------------cut here---------------start------------->8--- It is very likely that many of us will see some of our work replaced by AI, and that hurts. But it says absolutely nothing about the people working those jobs and whether or not they’re skilled. It says everything, however, about our current system and about how inadequate many of the jobs that we’ve created are. If something with an IQ of 83 can take over our jobs, society as a whole is not operating at its full potential. I believe that generative AI is both a jolting reality check, and a potential solution to help make our jobs more meaningful. Many workers are drowned in menial, repetitive tasks, often carried out on autopilot and without much critical thinking. [...] This kind of repetitive busy work takes up time that could be spent doing more meaningful work such as fleshing out that new idea you’ve had in the back of your head for months, or exploring an app you think could streamline your projects. As a result, we often stifle our own progress because we’re starved of the time and resources to think big. A lot of repetitive work could eventually be replaced by a ChatGPT bot [...] --8<---------------cut here---------------end--------------->8--- Ovviamente questo ragionamento vale per tutti i compiti ripetitivi che possono essere automatizzati, mica solo da ChatGPT... solo che chi osanna ChatGPT deve anche capire che la sua capacità di sintesi è _limitata_ e che a volte (spesso?) semplicemente sbaglia... e senza correggerlo continuerà a sbagliare in eterno... e NON si autocorregge. Detto in altro modo: se chiedi a un umano _solo_ di **eseguire** il lavoro secondo modelli/schemi/trucchi sviluppati (da altri) per massimizzare i _punteggi_ ottenuti nei test (standardizzati) di "valutazione" della performance lavorativa, ci sarà **sempre** una macchina di Turing in grado di farlo _molto_ meglio, ripetizione degli errori inclusa. https://nooscope.ai/ Per parafrasare Enrico Rogora citato sopra: «Credo che una discussione organica sul lavoro debba essere fatta sul piano più elevato dei rapporti tra strumenti valutativi (del lavoro) e processi di svolgimento e apprendimento ("feedback" che accumulato diventa esperienza) e loro relazione con la società e la cultura, con particolare attenzione al rapporto tra il _valore_ del lavoro e la sua monetizzazione in "valore di scambio".» David Graeber: «Huge swathes of people, in Europe and North America in particular, spend their entire working lives performing tasks they secretly believe do not really need to be performed» [7] > ChatGPT can (almost) pass the US Medical Licensing Exam [1] Ma per forza: copia (e ha la calcolatrice incorporata)! :-D Date una calcolatrice e accesso illimitato al web a tutti gli esaminandi umani a cui somministrate i test e poi vediamo, eh?!? :-P ...se poi gli esaminandi avessero a disposizione un database con salvate **tutte** le enciclopedie del mondo (tra)scritte in RDF e sapessero usare le query SPARQL come chattano su Instagram... semplicemente non ci sarebbe storia. B-) [...] saluti, 380° > [1] https://www.eurekalert.org/news-releases/978878 > [2] > https://www.sciencemediacentre.org/expert-reaction-to-study-on-chatgpt-almost-passing-the-us-medical-licensing-exam/ [3] https://en.wikipedia.org/wiki/Intelligence_quotient#Reliability_and_validity [4] attenzione NON ho scritto le valutazioni date da altri umani frutto di interrogazioni, compiti in classe, collaborazione, osservazione inseriti in un percorso scolastico/lavorativo di diversi mesi e anni... cosa a cui NON è stata sottoposta ChatGPT, se qualcuno volesse "divertirsi" [5] https://en.wikipedia.org/wiki/Item_response_theory, non trovo nemmeno che tipo di test utilizzi https://iqtest.com/ [6] https://www.ascd.org/blogs/15-reasons-why-standardized-tests-are-problematic [7] https://web.archive.org/web/20191211140746/http://www.strike.coop/bullshit-jobs -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa