Crawler di Anthropic ignora le politiche anti-scraping dei siti web

Crawler di Anthropic ignora le politiche anti-scraping dei siti web

Il crawler di Anthropic ha fatto scraping selvaggio sul sito iFixit per l'addestramento dei suoi modelli, ignorando le policy anti-AI dell'azienda.
Crawler di Anthropic ignora le politiche anti-scraping dei siti web
Il crawler di Anthropic ha fatto scraping selvaggio sul sito iFixit per l'addestramento dei suoi modelli, ignorando le policy anti-AI dell'azienda.

Anthropic è finita nella bufera a causa dello scraping aggressivo. Il suo web crawler, ClaudeBot, utilizzato per raccogliere dati per l’addestramento di modelli AI come Claude, infatti, avrebbe visitato il sito web di iFixit quasi un milione di volte in sole 24 ore.

Questa attività sembra violare le condizioni d’uso di iFixit (una community globale di persone che si aiutano per riparare cose), che vietano espressamente l’utilizzo dei contenuti del sito per scopi commerciali o per l’addestramento di modelli di apprendimento automatico o dell’intelligenza artificiale senza previa autorizzazione scritta.

L’amministratore delegato di iFixit denuncia l’attività di scraping aggressivo

Kyle Wiens, amministratore delegato di iFixit, ha espresso il suo disappunto riguardo all’attività di scraping di ClaudeBot su X. Wiens ha sottolineato che non solo Anthropic sta utilizzando i contenuti di iFixit senza pagare, ma sta anche impegnando le risorse DevOps dell’azienda. Il tasso di crawling era così elevato da far scattare tutti gli allarmi di iFixit e mettere in moto il team DevOps, nonostante il sito sia abituato a gestire un traffico significativo.

La risposta di Anthropic e l’implementazione del robots.txt

Quando interpellata sulla questione da 404 Media, Anthropic ha rimandato a una pagina di FAQ che afferma che il suo crawler può essere bloccato solo tramite l’estensione del file robots.txt. In seguito all’aggiunta dell’estensione crawl-delay al robots.txt di iFixit, l’attività di scraping di ClaudeBot sembra essersi interrotta. Jennifer Martinez, portavoce di Anthropic, ha confermato che l’azienda rispetta il robots.txt e che il loro crawler ha rispettato quel segnale quando iFixit lo ha implementato.

Altri siti web colpiti dallo scraping aggressivo di ClaudeBot

iFixit non sembra essere l’unico sito web ad aver subito uno scraping selvaggio da parte del crawler di Anthropic. Altri proprietari di siti, come il cofondatore di Read the Docs Eric Holscher e l’amministratore delegato di Freelancer.com Matt Barrie, hanno segnalato problemi simili.

Inoltre, diversi thread su Reddit risalenti a mesi fa riportano un drammatico aumento dell’attività di web scraping di Anthropic, con il forum web di Linux Mint che ha attribuito un’interruzione del sito alla tensione causata dalle attività di scraping di ClaudeBot ad aprile di quest’anno.

Il problema dell’opt-out tramite robots.txt

Mentre molte aziende di AI, come OpenAI, utilizzano il file robots.txt come metodo di opt-out per i proprietari dei siti web, questo approccio non offre molta flessibilità nel definire quali attività di scraping siano consentite o meno.

Perplexity, un’altra azienda di AI, è nota per ignorare completamente le esclusioni del robots.txt. Nonostante le limitate opzioni disponibili per le aziende per tenere i propri dati fuori dai materiali di formazione sull’AI, il recente giro di vite di Reddit sui web crawler dimostra che l’applicazione del robots.txt può essere una misura efficace.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
26 lug 2024
Link copiato negli appunti