I dataset usati nell'apprendimento automatico influenzano fortemente i comportamenti dei servizi basati sugli LLM, anche se non li definiscono in modo deterministico. Un filone di ricerca portato avanti da Andrew Ng e altri ricercatori è focalizzato proprio sulla Data centric AI: banalmente, se il dataset contiene solo testi misogini, l'LLM genererà testi misogini. I dataset utilizzati hanno un ruolo importante. Si ha a che fare però con dataset enormi, il training richiede enormi capacità computazionali e di memoria, quindi non è facile lavorare su questi aspetti, mi risulta che le università stesse abbiano difficoltà a lavorare su questi temi. Ricercatori come Giuseppe Attardi possono spiegare molto meglio di me questi temi. Come funzionerebbe un LLM che abbia fatto apprendimento anche su intere banche dati bibliografiche? Non lo so.
Dato un certo LLM (che fa quello che vuole, quello che sa fare, genere testi di tanti tipi), posso andare a controllare/analizzare i testi che genera oppure controllare/analizzare i testi che scrivono gli utenti, e quindi filtrarli, integrali, correggerli. Ad es. Bing sta mettendo filtri/limiti vari all'interazione con gli utenti in questi giorni per non rendere visibili troppe fesserie generate automaticamente. Se il controllo, filtro, integrazione con risorse esterne diventa troppo costoso, probabilmente ad un certo punto conviene creare un nuovo LLM. AB Il giorno mer 22 feb 2023 alle ore 10:51 380° <g...@biscuolo.net> ha scritto: > Andrea Bolioli via nexa <nexa@server-nexa.polito.it> writes: > > [...] > > > Questo tipo di errore non me l'aspettavo, perché non è molto difficile > > controllare la correttezza (o perlomeno l'esistenza) dei riferimenti > > bibliografici. Evidentemente non era tra le priorità di OpenAI finora, > non > > avranno ancora integrato banche dati bibliografiche? > > ribadisco la mia fiera (sebbene relativa) ignoranza nel funzionamento di > ChatGPT, ma è tecnicamente possibile "inserire" nel modello generato da > una rete neurale un sistema di verifica di fonti esterne tipo > bibliografie, database RDF, ecc.? > -- * * innovation.h-farm.com <https://innovation.h-farm.com/> / Linkedin <https://www.linkedin.com/company/h-farm-innovation> *Roncade*, H-FARM Campus, Via Olivetti, 1 – 31056 (TV) *Milano*, Corso di Porta Romana, 15 – 20122 *Torino*, Via San Quintino, 31 – 10121 Our privacy policy <https://www.jakala.com/wp-content/uploads/2019/11/JAKALA-pivacy-policy-and-cookie-policy_DEF.pdf>.
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa