Anthropic è finita nella bufera a causa dello scraping aggressivo. Il suo web crawler, ClaudeBot, utilizzato per raccogliere dati per l’addestramento di modelli AI come Claude, infatti, avrebbe visitato il sito web di iFixit quasi un milione di volte in sole 24 ore.
Questa attività sembra violare le condizioni d’uso di iFixit (una community globale di persone che si aiutano per riparare cose), che vietano espressamente l’utilizzo dei contenuti del sito per scopi commerciali o per l’addestramento di modelli di apprendimento automatico o dell’intelligenza artificiale senza previa autorizzazione scritta.
L’amministratore delegato di iFixit denuncia l’attività di scraping aggressivo
Kyle Wiens, amministratore delegato di iFixit, ha espresso il suo disappunto riguardo all’attività di scraping di ClaudeBot su X. Wiens ha sottolineato che non solo Anthropic sta utilizzando i contenuti di iFixit senza pagare, ma sta anche impegnando le risorse DevOps dell’azienda. Il tasso di crawling era così elevato da far scattare tutti gli allarmi di iFixit e mettere in moto il team DevOps, nonostante il sito sia abituato a gestire un traffico significativo.
Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?
You're not only taking our content without paying, you're tying up our devops resources. Not cool.
— Kyle Wiens (@kwiens) July 24, 2024
La risposta di Anthropic e l’implementazione del robots.txt
Quando interpellata sulla questione da 404 Media, Anthropic ha rimandato a una pagina di FAQ che afferma che il suo crawler può essere bloccato solo tramite l’estensione del file robots.txt. In seguito all’aggiunta dell’estensione crawl-delay al robots.txt di iFixit, l’attività di scraping di ClaudeBot sembra essersi interrotta. Jennifer Martinez, portavoce di Anthropic, ha confermato che l’azienda rispetta il robots.txt e che il loro crawler ha rispettato quel segnale quando iFixit lo ha implementato.
Altri siti web colpiti dallo scraping aggressivo di ClaudeBot
iFixit non sembra essere l’unico sito web ad aver subito uno scraping selvaggio da parte del crawler di Anthropic. Altri proprietari di siti, come il cofondatore di Read the Docs Eric Holscher e l’amministratore delegato di Freelancer.com Matt Barrie, hanno segnalato problemi simili.
Inoltre, diversi thread su Reddit risalenti a mesi fa riportano un drammatico aumento dell’attività di web scraping di Anthropic, con il forum web di Linux Mint che ha attribuito un’interruzione del sito alla tensione causata dalle attività di scraping di ClaudeBot ad aprile di quest’anno.
Il problema dell’opt-out tramite robots.txt
Mentre molte aziende di AI, come OpenAI, utilizzano il file robots.txt come metodo di opt-out per i proprietari dei siti web, questo approccio non offre molta flessibilità nel definire quali attività di scraping siano consentite o meno.
Perplexity, un’altra azienda di AI, è nota per ignorare completamente le esclusioni del robots.txt. Nonostante le limitate opzioni disponibili per le aziende per tenere i propri dati fuori dai materiali di formazione sull’AI, il recente giro di vite di Reddit sui web crawler dimostra che l’applicazione del robots.txt può essere una misura efficace.