Anthropic: siti web bloccano i crawler sbagliati

Anthropic è stata accusata da iFixit di non rispettare il Robots Exclusion Protocol, ignorando il blocco aggiunto al file robots.txt. La startup californiana ha comunicato che non effettua lo scraping selvaggio senza permesso. Alcuni siti web bloccano però i crawler sbagliati.

Il nuovo crawler è ClaudeBot

Come è noto, l’addestramento dei modelli di intelligenza artificiale generativa viene effettuato con dati pubblici “raschiati” (da cui il termine scraping) su Internet. Diversi editori accusano le numerose startup del settore di violare il copyright, in quanto nelle risposte dei rispettivi chatbot sono presenti copie degli articoli. Ciò avviene senza nessuna autorizzazione o accordo commerciale. Perplexity AI non rispetterebbe nemmeno il blocco inserito nel file robots.txt.

Nel caso di Anthropic, i giornalisti di 404 Media hanno scoperto che molti siti web bloccano due vecchi crawler dell’azienda fondata dai fratelli Dario e Daniela Amodei. Secondo il gestore di Dark Visitors, un sito che elenca tutti i bot, spesso vengono cambiati i nomi e introdotti nuovi crawler senza preavviso.

Anthropic usava in precedenza i crawler Claude-Web e anthropic-ai. Questi due “data scraper” sono presenti nei file robots.txt di Reuters e Wired. La startup californiana usa ora il crawler ClaudeBot, quindi né Reuters né Wired bloccano l’accesso agli articoli. iFixit ha invece aggiunto ClaudeBot al file robots.txt, bloccando lo scraping.

Spesso i webmaster fanno un “copia e incolla” dell’elenco dei crawler, senza verificare se siano ancora attivi. Non è tuttavia semplice aggiornare l’elenco nel file robots.txt. In alcuni casi viene adottata una soluzione drastica, inserendo il blocco di tutti i bot, inclusi quelli dei motori di ricerca. Reddit ha bloccato qualsiasi bot, ad eccezione di quello di Google (ma non è ancora specificato nel file robots.txt).

Fonte: 404 Media

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech