Cloudflare, il noto fornitore di servizi cloud, ha recentemente introdotto un nuovo strumento gratuito volto a impedire ai bot di effettuare lo scraping dei siti web ospitati sulla sua piattaforma.
L’obiettivo principale è quello di proteggere i dati dei siti affinché non vengano utilizzati per l’addestramento dei modelli di intelligenza artificiale senza il consenso dei legittimi proprietari. Per inciso, lo scraping è una tecnica utilizzata per estrarre ed esportare grandi quantità di dati da un sito web.
Il problema dei bot AI che fanno lo scraping dei dati
Nonostante alcuni fornitori di AI, come Google, OpenAI e Apple, consentano ai proprietari di siti web di bloccare i bot utilizzati per lo scraping dei dati e l’addestramento dei modelli attraverso la modifica del file robots.txt, non tutti gli scraper AI rispettano le indicazioni… Cloudflare sottolinea che i clienti non desiderano che i bot AI visitino i loro siti web, specialmente quelli che lo fanno in modo disonesto, aggirando le regole per accedere ai contenuti.
Per affrontare questo problema, Cloudflare ha analizzato il traffico di bot e crawler AI per sviluppare modelli di rilevamento automatico dei bot. Questi modelli considerano diversi fattori, tra cui la possibilità che un bot AI cerchi di eludere il rilevamento imitando l’aspetto e il comportamento di un utente che utilizza un browser web. Grazie a segnali specifici, i modelli di Cloudflare sono in grado di contrassegnare correttamente come bot il traffico proveniente da AI evasive.
Segnalazione di bot e crawler AI sospetti
Cloudflare ha creato anche un modulo dedicato agli host per segnalare bot e crawler AI sospetti e si impegna a inserire manualmente i bot AI nella lista nera nel corso del tempo. Questo approccio mira a fornire una protezione continua contro gli scraper AI non autorizzati.
Il boom dell’AI generativa e il blocco degli scraper
Il problema dei bot AI è diventato particolarmente evidente con il boom dell’AI generativa, che ha alimentato la domanda di dati per l’addestramento dei modelli. Molti siti, diffidando dei fornitori di AI che addestrano modelli sui loro contenuti senza avvisarli o compensarli, hanno scelto di bloccare gli scraper e i crawler AI. Tuttavia, il blocco non è una protezione sicura, poiché alcuni fornitori sembrano ignorare le regole standard di esclusione dei bot per ottenere un vantaggio competitivo nella corsa all’AI.
La necessità di strumenti accurati per rilevare i bot AI clandestini
Gli strumenti come quello lanciato da Cloudflare per bloccare lo scraping dei bot potrebbero essere utili per contrastare l’uso non autorizzato di dati per addestrare modelli di AI. Tuttavia questi tool sono efficaci solo se riescono a rilevare in modo accurato i bot “clandestini” creati appositamente per raccogliere grandi quantità di dati dai siti web.
Inoltre rimane il problema che alcuni editori potrebbero essere riluttanti ad implementare blocchi troppo restrittivi verso i web crawler AI per paura di penalizzazioni da parte dei motori di ricerca. Ad esempio, Google potrebbe escludere dalle sue panoramiche AI, i siti che impediscono l’accesso ai suoi bot incaricati di raccogliere contenuti.
In questo modo il sito rischierebbe di perdere traffico di referral da Google. Quindi gli editori devono bilanciare la protezione dei propri dati dall’uso non consentito con la necessità di non limitare eccessivamente l’accesso ai crawler dei motori di ricerca, pena la perdita di visibilità e traffico verso i propri siti.