I dataset usati nell'apprendimento automatico influenzano fortemente i
comportamenti dei servizi basati sugli LLM, anche se non li definiscono in
modo deterministico.
Un filone di ricerca portato avanti da Andrew Ng e altri ricercatori è
focalizzato proprio sulla Data centric AI: banalmente, se il dataset
contiene solo testi misogini, l'LLM genererà testi misogini. I dataset
utilizzati hanno un ruolo importante.
Si ha a che fare però con dataset enormi, il training richiede enormi
capacità computazionali e di memoria, quindi non è facile lavorare su
questi aspetti, mi risulta che le università stesse abbiano difficoltà a
lavorare su questi temi.
Ricercatori come Giuseppe Attardi possono spiegare molto meglio di me
questi temi.
Come funzionerebbe un LLM che abbia fatto apprendimento anche su intere
banche dati bibliografiche? Non lo so.

Dato un certo LLM (che fa quello che vuole, quello che sa fare, genere
testi di tanti tipi), posso andare a controllare/analizzare i testi che
genera oppure controllare/analizzare i testi che scrivono gli utenti, e
quindi filtrarli, integrali, correggerli. Ad es. Bing sta mettendo
filtri/limiti vari all'interazione con gli utenti in questi giorni per non
rendere visibili troppe fesserie generate automaticamente.
Se il controllo, filtro, integrazione con risorse esterne diventa troppo
costoso, probabilmente ad un certo punto conviene creare un nuovo LLM.

AB



Il giorno mer 22 feb 2023 alle ore 10:51 380° <g...@biscuolo.net> ha
scritto:

> Andrea Bolioli via nexa <nexa@server-nexa.polito.it> writes:
>
> [...]
>
> > Questo tipo di errore non me l'aspettavo, perché non è molto difficile
> > controllare la correttezza (o perlomeno l'esistenza) dei riferimenti
> > bibliografici. Evidentemente non era tra le priorità di OpenAI finora,
> non
> > avranno ancora integrato banche dati bibliografiche?
>
> ribadisco la mia fiera (sebbene relativa) ignoranza nel funzionamento di
> ChatGPT, ma è tecnicamente possibile "inserire" nel modello generato da
> una rete neurale un sistema di verifica di fonti esterne tipo
> bibliografie, database RDF, ecc.?
>

-- 




*
*
innovation.h-farm.com <https://innovation.h-farm.com/> / Linkedin 
<https://www.linkedin.com/company/h-farm-innovation>


*Roncade*, H-FARM 
Campus, Via Olivetti, 1 – 31056 (TV)
*Milano*, Corso di Porta Romana, 15 – 
20122
*Torino*, Via San Quintino, 31 – 10121

Our privacy policy 
<https://www.jakala.com/wp-content/uploads/2019/11/JAKALA-pivacy-policy-and-cookie-policy_DEF.pdf>.
 
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to