Buongiorno, ma guarda un po' quante considerazioni interessanti si possono /infIerire/ anche solo grattando un po' la superficie...
Alberto Cammozzo via nexa <nexa@server-nexa.polito.it> writes: > <https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/> [...] > Two sites in the top 100, coloradovoters.info No. 40 and flvoters.com > No. 73, had privately hosted copies of state voter registration > databases. quei due siti non esistono più, i domini sono in vendita > Though voter data is public, the models could use this personal > information in unknown ways. i famosi "commercial voter files" [1]: --8<---------------cut here---------------start------------->8--- Commercial voter files are an amalgamation of administrative data from states about registration and voting, modeled data about partisanship, political engagement and political support provided by vendors; and demographic, financial and lifestyle data culled from a wide range of sources. [...] the files collectively cover a large share of the U.S. population --8<---------------cut here---------------end--------------->8--- Profilare (spannometricamente) come se non ci fosse un ieri, un oggi e soprattutto un domani! Tutto normale, /molto/ prima della AI (ma l'AI /sublima/ il processo che è un piacere) ...aggià, probabilmente assieme al gerrymandering serve a migliorare l'efficacia democratica del sistema elettorale [...] > Currently, artists receive no compensation or credit when their work > is included in AI training data Quindi vengono violati _in primis_ i diritti morali degli artisti, perché per quelli non c'è "fair use" che tenga; poi si può discutere se il mancato riconoscimento dei diritti di sfruttamento economico dell'opera, in questi casi, sia fair use... ma è **secondario** [...] > Meanwhile, we found several media outlets that rank low on NewsGuard’s > independent scale for trustworthiness: RT.com No. 65, the Russian > state-backed propaganda site; Già, mica come il Washington Post! [...] > Chatbots have been shown to confidently share incorrect information, > but don’t always offer citations. Untrustworthy training data could > lead it to spread bias, propaganda and misinformation — without the > user being able to trace it to the original source. Ecco: **questo** è il (uno dei?) peccato CAPITALE degli LLM (del machine learning in generale?): manca la /provenance/; un modello progettato così è inemendabile. Intuisco che questo ha _molto_ a che fare con l'inadeguata rappresentazione dei dati ma _soprattutto_ dei metadati all'interno dello spazio informativo usato per l'"addestramento" dei modelli... ma chi sono io per... > Religious sites reflect a Western perspective ROTFL! Perché tutti gli altri citati prima come fonti autorevoli no eh? :-D [...] > Anti-Muslim bias has emerged as a problem in some language models. For > example, a study published in the journal Nature found that OpenAI’s > ChatGPT-3 completed the phrase “Two muslims walked into a …” with > violent actions 66 percent of the time. ROTFL^2: chissà come mai?!? Deve essere una di quelle misteriose proprietà emergenti di cui parlava Sundar Pichai qualche giorno fa a 60 minutes. [...] > Social networks like Facebook and Twitter — the heart of the modern > web — prohibit scraping, which means most data sets used to train AI > cannot access them. Quello che è mio è mio, quello che è tuo è mio... :-D > Tech giants like Facebook and Google that are sitting on mammoth > troves of conversational data have not been clear about how personal > user information may be used to train AI models that are used > internally or sold as products. Ci vorrebbe un altro wistleblower ma mi sa che la lezione è arrivata forte e chiara... [...] > (C4 stands for Colossal Clean Crawled Corpus.). In addition to > removing gibberish and duplicate text, the company used the open > source “List of Dirty, Naughty, Obscene, and Otherwise Bad Words,” sarebbe questa [2]: https://github.com/Jenyay/Obscene-Words-List ? > which includes 402 terms in English and one emoji (a hand making a > common but obscene gesture). Companies typically use high-quality > datasets to fine-tune models, shielding users from some unwanted > content. <joke> É un peccato che all'AI non vengano insegnate tutte quelle cose, così non potrà mai imparare quando è inopportuno usarle perché non è il contesto giusto... un po' come imparano i bambini più o meno da quando vanno all'asilo </joke> (tratto dall'articolo di Wired [2]) --8<---------------cut here---------------start------------->8--- “Words on the list are many times used in very offensive ways but they can also be appropriate depending on context and your identity,” says William Agnew, a machine learning researcher at the University of Washington. --8<---------------cut here---------------end--------------->8--- menomale che ce lo dice un ricercatore di machine learning perché non ci avevamo mai pensato prima! :-O > While this kind of blocklist is intended to limit a model’s exposure > to racial slurs and obscenities as it’s being trained, it also has > been shown to eliminate some nonsexual LGBTQ content. Ma guarda un po' cosa può succedere quando si censur... ops _filtra_ /preventivamente/, per di più usando una tecnica di una banalità impressionante [...] > and more than 72,000 instances of “swastika,” one of the banned terms > from the list. Ah, quindi il /termine/ swastika è pure proibito? Quindi https://en.wikipedia.org/wiki/Swastika sarebbe stato filtrato preventivamente? (tratto da [2]) --8<---------------cut here---------------start------------->8--- LDNOOBW appears to reflect historical patterns of disapproval of homosexual relationships, Agnew says, with entries including “gay sex” and “homoerotic.” --8<---------------cut here---------------end--------------->8--- Fosse solo quello il problema, ho dato una rapida scorsa alle /parole proibite/ in italiano: bagnarsi, balle, battere, biga, bocchino, boiata, cadavere, cammello, cappella, carciofo, carità... stendiamo un velo /pietosissimo/, OK? Credo che sia estremamente _urgente_ l'intervento di un mediatore culturale, uno bravo però [3] [...] > The Post believes it is important to present the complete contents of > the data fed into AI models, which promise to govern many aspects of > modern life. Ah: quindi 'mo il problema è di curare meglio il contenuto e non IMPEDIRE che i modelli AI _governino_ molti aspetti della nostra vita... moderna?!?! > Some websites in this data set contain highly offensive language and > we have attempted to mask these words. Objectionable content may > remain. Niente, non ce la fanno proprio, non gli passa nemmeno per l'anticamera del cervello che è nella natura stessa del contenuto che sia /discutibile/ e che il fatto che certo contenuto sia ritenuto offensivo (quindi censurabile?!?) dipende dallo /specifico/ contesto _contingente_ e dall'identità culturale dei /recipienti/, che cambia in funzione dell'epoca e delle coordinate GPS/geopolitiche?!?... e delle convinzioni personali? [...] > Experts say many companies do not document the contents of their > training data — even internally — for fear of finding personal > information about identifiable individuals, copyrighted material and > other data grabbed without consent. Fantastico: una MATRIOSKA di black-box! [...] > SimilarWeb helped The Post place two-thirds of them — about 10 million > domains — into categories and subcategories. (The rest could not be > categorized, often because they were no longer accessible.) ...il reverse-engineering /spannometrico/ del forward-engineering /spannometrico/ quanto fa? spannometrico al quadrato? sarebbe questa la metascienza? [...] > Categorization is difficult and ambiguous, toh, alla fine un barlume di onestà intellettuale domanda da un miliardo di dollari: avendo a disposizione tutti i dati "grezzi" di partenza qualcuno sarebbe in grado di stimare la il livello di "risoluzione" e l'errore nella categorizzazione rispetto alla natura del /categorizzato/? [...] saluti, 380° [1] https://www.pewresearch.org/methods/2018/02/15/commercial-voter-files-and-the-study-of-u-s-politics/ [2] https://www.wired.com/story/ai-list-dirty-naughty-obscene-bad-words/ [3] uno che riesca a far comprendere a uno statunitense il monologo di Stefano Bartezaghi sui molti modi di dire mignotta, "buona donna" è /solo/ uno di questi: https://www.greenme.it/lifestyle/costume-e-societa/monologo-paola-cortellesi-parole-donne/ -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
signature.asc
Description: PGP signature
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa