Soluzioni ingegnose per bloccare i crawler AI

Soluzioni ingegnose per bloccare i crawler AI

Per impedire ai crawler AI di accedere ai siti dei progetti FOSS sono stati creati alcuni tool molto efficaci (al momento), come Anubis e Nephentes.
Soluzioni ingegnose per bloccare i crawler AI
Per impedire ai crawler AI di accedere ai siti dei progetti FOSS sono stati creati alcuni tool molto efficaci (al momento), come Anubis e Nephentes.

Molti sviluppatori hanno segnalato lo scraping selvaggio dei siti che ospitano progetti FOSS (Free and Open Source Software) da parte dei crawler AI. In alcuni casi, ciò ha causato l’impossibilità di accedere alle risorse. In pratica, il numero elevato di richieste HTTP è simile a quello di un attacco DDoS (Distributed Denial of Service). Sono state quindi implementate misure piuttosto ingegnose per bloccare questi malefici bot.

Anubis e Nephentes

L’addestramento dei modelli di intelligenza artificiale generativa viene effettuato tramite milioni di contenuti pubblici “rastrellati” su Internet (spesso anche quelli protetti dal copyright). Tra quelli più appetibili ci sono i siti che ospitano progetti FOSS. Lo sviluppatore Xe Iaso ha evidenziato che fermare questi crawler AI è quasi impossibile. Non rispettano il Robots Exclusion Protocol (il file robots.txt), cambiano user agent e nascondono l’indirizzo IP tramite proxy.

I crawler AI sono talmente invasivi che possono saturare tutte le risorse del server. Il sito non sarà più raggiungibile e il proprietario subirà anche un aumento dei costi. Iaso ha quindi sviluppato un tool, denominato Anubis, che blocca i crawler AI. È una challenge proof-of-work che deve essere superata per accedere al sito. Al momento nessun bot AI supera il test, a differenza dei browser controllati dagli umani. Anubis viene usato da altri sviluppatori della comunità FOSS.

Un’altra soluzione prevede la pubblicazione di contenuti fake. Lo sviluppatore Aaron ha creato il tool Nephentes che, in modo simile all’omonima pianta carnivora, attira i crawler AI in trappola. I bot accedono così a pagine web praticamente inutili. È lo stesso stratagemma implementato da Cloudflare con AI Labyrinth.

Fonte: TechCrunch
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
31 mar 2025
Link copiato negli appunti