Ciao Antonio,
concordo che molto del traffico che si osserva oggi su vari servizi non sia
necessariamente un “attacco”, ma scraping massivo spesso legato
all’ecosistema AI.
Nel caso che stiamo discutendo però c’è un elemento ulteriore: molte
richieste sembrano provenire da reti di residential proxy o SDK di
bandwidth-sharing (ad esempio BrightData, Honeygain, Infatica,
PacketStream, Pawns, ecc. [1]).
Queste infrastrutture distribuiscono le richieste su dispositivi reali o IP
domestici e fanno rotazione continua degli indirizzi.
Questo spiega perché si vedono numeri molto alti di IP diversi con poche
richieste ciascuno: l’uso dei proxy moltiplica artificialmente le sorgenti
e rende inefficaci sia i blocchi per singolo IP sia quelli per subnet.
Tra l’altro, nel caso di OpenStreetMap questo tipo di scraping ha anche
utilità limitata: i dati sono già disponibili tramite dump completi e feed
di aggiornamento (planet dump e replication diff), quindi esistono
meccanismi molto più efficienti e rispettosi dell’infrastruttura per
ottenere dati aggiornati.

[1] https://gist.github.com/Firefishy/5e60867d2425a380cc0e28eebbbf3887



Il giorno mer 4 mar 2026 alle ore 19:08 antonio <[email protected]> ha
scritto:

> > Se in passato era possibile mitigare il fenomeno bloccando pochi IP
> > sospetti, oggi l'attacco è estremamente distribuito: oltre 100.000
> > indirizzi IP diversi effettuano pochissime richieste ciascuno,
> > rendendo i filtri tradizionali totalmente inefficaci.
>
> Non so se è il caso di OSM ma, come ho già segnalato in passato, spesso
> questi accessi
> non sono attacchi ma "legittime" operazioni di scraping di voraci bot AI
> con lo
> scopo, ovviamente, di tenere quanto più aggiornati i vari LLM.
>
> Prendiamo i bot Google, se prima "passavano" dai siti ogni tot giorni per
> indicizzarne una parte, oggi sono decine, centinaia di bot da IP diversi
> che
> scaricano migliaia di pagine al giorno, in pratica si tirano giù ogni sito
> ogni giorno.
> Tutto per permettere al loro Gemini di essere quanto più aggiornato
> possibile
> (che non si dica che l'AI restituisca notizie vecchie).
>
> Ovviamente, stesso discorso vale per gli altri LLM, con il risultato che
> gli
> utenti "umani" sono ormai ridotti e pochi punti percentuali.
>
> 100000 indirizzi IP diversi possono sembrare tanti ma non sono nemmeno due
> classi B (65536 IP ognuna).
> Certo, se provenissero tutti dalla stessa classe B, <code> iptables -I
> INPUT -s x.y.0.0/16 -p tcp --dport 443 -j DROP </code> e
> non passa più nessuno. Purtroppo questi soggetti si sono comprati mezza
> numerazione Internet e quindi gli IP
> possono provenire da qualsiasi classe rendendo di fatto vano ogni
> tentativo di bloccarli.
>
> A.
>


-- 
FBK - Fondazione Bruno Kessler
Trento - Italy
tel +39 0461 314341
https://osm.org/go/0CvouFIm6 <https://osm.org/go/0CvouFIm6?m=>
http://dcl.fbk.eu
you can schedule a call with me here
https://tinyurl.com/booknapo <https://bit.ly/booknapo>

-- 
--
Le informazioni contenute nella presente comunicazione sono di natura 
privata e come tali sono da considerarsi riservate ed indirizzate 
esclusivamente ai destinatari indicati e per le finalità strettamente 
legate al relativo contenuto. Se avete ricevuto questo messaggio per 
errore, vi preghiamo di eliminarlo e di inviare una comunicazione 
all’indirizzo e-mail del mittente.

--
The information transmitted is 
intended only for the person or entity to which it is addressed and may 
contain confidential and/or privileged material. If you received this in 
error, please contact the sender and delete the material.

Reply via email to