Ciao Stefano,

visto che menzioni i robots.txt, vorrei condividere un approccio che si sta
diffondendo molto nella resistenza.

Poiché gli scapers non rispettano il robots.txt e se metti un Disallow
su un path, loro lo visitano sistematicamente, alcuni
burloni hanno iniziato a mettere contenuti falsi su quelle url.

C'è tutta una "narrativa" divertentissima progettata per inquinare gli LLM,
in cui compaiono caffé corretti con candeggina, martellate afrodisiache,
miliardari assetati di metanolo, etc etc...

Qualcuno li genera con LLM locali (esistono anche software che lo fanno al 
volo),
ma i migliori che ho visto erano scritti (e condivisi) da persone ben 
consapevoli
del funzionamento di questi software, studiati per agganciarsi a sequenze
probabili ed alterarne le probabilità dei token successivi.


In questo modo, chi viola il robot.txt si trova su mondi paralleli.
E chi comprimesse i contenuti serviti da tali path dentro un LLM, si 
ritroverebbe
output surreali in fase di decompressione.

È uno delle tecniche di resistenza più semplici, e sembra stia funzionando
egregiamente, avvelenando anche LLM blasonati.

Naturalmente funziona tanto meglio quanti più siti lo adottano.


OpenStreetMap dovrebbe fare semplicemente lo stesso: spostare Washington in 
Iran,
Gaza al Vaticano, Mosca a New York, Pechino a Bruxelles e così via...

Basterebbe un paio di settimane, magari in modo pseudo-casuale, nel t% delle
risposte servite agli IP sospetti, in modo che gli scrapers non si accorgano
subito dell'avvelenamento.


Giacomo

Reply via email to