Perplexity continua a copiare gli articoli pubblicati su altri siti, senza rispettare il Robot Exclusions Protocol. Wired ha scoperto che il suo chatbot genera risposte contenenti le esatte frasi presenti nell’articolo originale. Il co-fondatore e CEO Aravind Srinivas aveva attribuito la colpa ad un web crawler di terze parti.
Chatbot IA e violazione di copyright
Forbes aveva scoperto che la nuova funzionalità Pages di Perplexity genera contenuti molto simili a quelli originali (anche se sono protetti dal paywall), senza indicare le fonti in modo chiaro. Wired ha invece notato che il chatbot della startup californiana ignora il blocco inserito nel file robots.txt
e quindi accede a tutte le pagine.
In alcuni casi, la risposta del chatbot è una sorta di “allucinazione”, in quanto attribuisce un articolo fasullo alla fonte sbagliata. Ciò potrebbe essere considerata diffamazione. Nel fine settimana, Wired ha chiesto informazioni sull’articolo con il titolo “Perplexity is a bullshit machine“. L’intelligenza artificiale ha generato sei paragrafi di testo, nel quinto dei quali è presente la stessa frase dell’articolo originale. Sembra quindi un caso di plagio perché la citazione non è scritta tra virgolette.
È certo però che Perplexity non rispetta il Robot Exclusions Protocol, in quanto effettua lo scraping anche se è stato bloccato l’accesso al suo web crawler (PerplexityBot). Il CEO Aravind Srinivas ha dichiarato che il rispetto del protocollo è volontario. Inoltre ha sottolineato che l’azienda usa anche web crawler di terze parti, senza però svelare il nome del provider.
Il vero problema è che non esiste una legge che impedisce lo scraping dei siti web. Le attuali leggi sul copyright sono vecchie, quindi le aziende sfruttano questo vuoto legislativo per ottenere profitti. Alcune hanno però sottoscritto accordi per evitare denunce, come quella presentata dal New York Times nei confronti di OpenAI.
Aggiornamento: anche OpenAI e Anthropic non rispetterebbero il Robot Exclusions Protocol.