Buongiorno Giuseppe, Giuseppe Attardi <atta...@di.unipi.it> writes:
> Interessante segnalazione. > Vorrei aggiungere un po’ di contesto. Grazie per aver meglio contestualizzato l'argomento del Language Modeling e dei Transformers [...] > I ricercatori si sono posti il problema di capire quante e quali > conoscenze siano in realtà incorporate in questi modelli ed è nato un > campo di investigazione chiamato BERTology (da BERT, il primo > transformer). Per favore qual'è a tuo giudizio il miglior BERTology paper? Io ho trovato questo che mi pare essere una meta-ricerca: https://arxiv.org/abs/2002.12327 «A Primer in BERTology: What we know about how BERT works» ma è del 2020 e in questo settore rischia di essere vecchia [...] > I LLM non hanno nessuna capacità di inferenza Immagino ti riferisca alla mancanza di una "forma di ragionamento con cui si dimostri il logico conseguire di una verità da un’altra" (cfr. https://www.treccani.it/vocabolario/inferenza) e non alla mancanza di capacità di inferenza statistica, sulla quale mi pare di aver capito che l'intera (narrow) AI si basa. > e i testi che producono o le risposte che gli si chiedano non sempre > hanno una qualche coerenza logica. Ma hanno una (im)perfetta coerenza inferenziale statistica, no? [...] > Nessuno è perfetto ma presentare esempi aneddotici di non perfetto > funzionamento della tecnologia è uno sport di bassa lega e che tende a > gettare discredito o a sminuire il valore di ricerche di altissimo > valore scientifico e di straordinaria rilevanza tecnologica. A me non pare affatto che i tre articoli di Simon Willison si limitino a "presentare esempi anedottici" ma cerchino di analizzare la natura del problema che Riley Goodside [1] et al hanno evidenziato (anzi hanno twittato :-( ) In particolare, nel terzo articolo intitolato «You can’t solve AI security problems with more AI» illustra abbastanza chiaramente, seppur senza entrare abbastanza nei dettagli scientifici *e* filosofici della quatione, la sua tesi: --8<---------------cut here---------------start------------->8--- I think the entire idea of using additional language model AIs to protect against injection attacks against language model AIs is fundamentally flawed. --8<---------------cut here---------------end--------------->8--- (https://simonwillison.net/2022/Sep/17/prompt-injection-more-ai/) Inoltre, nel primo articolo intitolato «Prompt injection attacks against GPT-3» nella sezione "Further Reading" cita questi due articoli (che ammetto di non aver letto, limitandomi agli abstract, per ora): 1. «Universal Adversarial Triggers for Attacking and Analyzing NLP» https://arxiv.org/abs/1908.07125 --8<---------------cut here---------------start------------->8--- Adversarial examples highlight model vulnerabilities and are useful for evaluation and interpretation. We define universal adversarial triggers: input-agnostic sequences of tokens that trigger a model to produce a specific prediction when concatenated to any input from a dataset. [...] --8<---------------cut here---------------end--------------->8--- 2. «Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples» https://arxiv.org/abs/2209.02128 --8<---------------cut here---------------start------------->8--- [...] evaluations of PLMs, in practice, have shown their susceptibility to adversarial attacks during the training and fine-tuning stages of development. [...] While existing research has focused on adversarial attacks during either the training or the fine-tuning of PLMs, there is a deficit of information on attacks made between these two development phases. In this work, we highlight a major security vulnerability in the public release of GPT-3 and further investigate this vulnerability in other state-of-the-art PLMs. [...] Following this approach, we observe a significant decrease in text classification quality when evaluating for semantic similarity. --8<---------------cut here---------------end--------------->8--- Comprendo quindi che si possano contestare, anche duramente, le tesi espresse ma faccio veramente fatica a comprendere come possano essere considerate "uno sport di bassa lega". [...] Saluti, 380° [1] che lavora come data scientist in https://www.copy.ai/ , un sistema di copywriting automatico -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
signature.asc
Description: PGP signature
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa