Perplexity ignora il blocco dello scraping (update)

Perplexity IA è una delle startup statunitensi che sfruttano l’intelligenza artificiale generativa. Secondo Forbes, la nuova funzionalità Pages del suo motore di ricerca copia gli articoli senza citare chiaramente le fonti. Wired ha scoperto che lo scraping delle pagine web viene effettuato anche se il crawler è stato bloccato.

Perplexity è una fotocopiatrice

Se l’utente chiede al chatbot una descrizione di se stesso scoprirà che si tratta di un motore di ricerca in grado di rispondere alle domande in tempo reale prelevando informazioni da articoli recenti. In pratica è ciò che fanno tutti i chatbot. Gli editori che vogliono impedire la raccolta dei dati possono aggiungere il blocco per il crawler PerplexityBot al file robots.txt.

Wired ha tuttavia scoperto che Perplexity ignora il suddetto blocco e accede all’intero sito (anche a quelli di altri siti dell’editore Condé Nast) utilizzando un server ospitato sul cloud di Amazon. Il chatbot dell’azienda californiana genera quindi articoli fotocopia, cambiando solo la disposizione dei paragrafi o usando parafrasi.

Le fonti sono poco riconoscibili, come ha verificato Forbes. In alcuni casi, il chatbot attribuisce un articolo alla fonte sbagliata. Wired ha usato le parole “bullshit machine” che non necessitano di traduzione. Per garantire una maggiore trasparenza, Perplexity aveva pubblicato gli indirizzi IP del suo crawler (successivamente rimossi dalla documentazione), ma lo scraping viene effettuato anche da indirizzi IP sconosciuti.

Secondo Axios, il team legale di Forbes ha inviato una lettera a Perplexity per chiedere la rimozione degli articoli, un rimborso pari ai guadagni ottenuti dalla violazione del copyright e la garanzia scritta che non verranno più usati gli articoli. Se Perplexity non risponderà entro 10 giorni, Forbes presenterà una denuncia.

Aggiornamento (22/06/2024): il co-fondatore e CEO Aravind Srinivas ha dichiarato che Perplexity non ignora il Robot Exclusions Protocol. Probabilmente è un web crawler di terze parti (usato dal chatbot) che non rispetta il contenuto del file robots.txt, ma il CEO non ha svelato il suo nome.

Fonte: Wired

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech