Anthropic: siti web bloccano i crawler sbagliati

Anthropic: siti web bloccano i crawler sbagliati

Molti siti web, tra cui Reuters e Wired, bloccano l'accesso a due vecchi crawler di Anthropic non più attivi, invece del nuovo ClaudeBot.
Anthropic: siti web bloccano i crawler sbagliati
Molti siti web, tra cui Reuters e Wired, bloccano l'accesso a due vecchi crawler di Anthropic non più attivi, invece del nuovo ClaudeBot.

Anthropic è stata accusata da iFixit di non rispettare il Robots Exclusion Protocol, ignorando il blocco aggiunto al file robots.txt. La startup californiana ha comunicato che non effettua lo scraping selvaggio senza permesso. Alcuni siti web bloccano però i crawler sbagliati.

Il nuovo crawler è ClaudeBot

Come è noto, l’addestramento dei modelli di intelligenza artificiale generativa viene effettuato con dati pubblici “raschiati” (da cui il termine scraping) su Internet. Diversi editori accusano le numerose startup del settore di violare il copyright, in quanto nelle risposte dei rispettivi chatbot sono presenti copie degli articoli. Ciò avviene senza nessuna autorizzazione o accordo commerciale. Perplexity AI non rispetterebbe nemmeno il blocco inserito nel file robots.txt.

Nel caso di Anthropic, i giornalisti di 404 Media hanno scoperto che molti siti web bloccano due vecchi crawler dell’azienda fondata dai fratelli Dario e Daniela Amodei. Secondo il gestore di Dark Visitors, un sito che elenca tutti i bot, spesso vengono cambiati i nomi e introdotti nuovi crawler senza preavviso.

Anthropic usava in precedenza i crawler Claude-Web e anthropic-ai. Questi due “data scraper” sono presenti nei file robots.txt di Reuters e Wired. La startup californiana usa ora il crawler ClaudeBot, quindi né Reuters né Wired bloccano l’accesso agli articoli. iFixit ha invece aggiunto ClaudeBot al file robots.txt, bloccando lo scraping.

Spesso i webmaster fanno un “copia e incolla” dell’elenco dei crawler, senza verificare se siano ancora attivi. Non è tuttavia semplice aggiornare l’elenco nel file robots.txt. In alcuni casi viene adottata una soluzione drastica, inserendo il blocco di tutti i bot, inclusi quelli dei motori di ricerca. Reddit ha bloccato qualsiasi bot, ad eccezione di quello di Google (ma non è ancora specificato nel file robots.txt).

Fonte: 404 Media
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
30 lug 2024
Link copiato negli appunti