Perplexity genera ancora copie degli articoli (update)

Perplexity genera ancora copie degli articoli (update)

Perplexity continua a copiare gli articoli di Wired, senza rispettare il blocco del suo web crawler, ma il CEO attribuisce la colpa a terze parti.
Perplexity genera ancora copie degli articoli (update)
Perplexity continua a copiare gli articoli di Wired, senza rispettare il blocco del suo web crawler, ma il CEO attribuisce la colpa a terze parti.

Perplexity continua a copiare gli articoli pubblicati su altri siti, senza rispettare il Robot Exclusions Protocol. Wired ha scoperto che il suo chatbot genera risposte contenenti le esatte frasi presenti nell’articolo originale. Il co-fondatore e CEO Aravind Srinivas aveva attribuito la colpa ad un web crawler di terze parti.

Forbes aveva scoperto che la nuova funzionalità Pages di Perplexity genera contenuti molto simili a quelli originali (anche se sono protetti dal paywall), senza indicare le fonti in modo chiaro. Wired ha invece notato che il chatbot della startup californiana ignora il blocco inserito nel file robots.txt e quindi accede a tutte le pagine.

In alcuni casi, la risposta del chatbot è una sorta di “allucinazione”, in quanto attribuisce un articolo fasullo alla fonte sbagliata. Ciò potrebbe essere considerata diffamazione. Nel fine settimana, Wired ha chiesto informazioni sull’articolo con il titolo “Perplexity is a bullshit machine“. L’intelligenza artificiale ha generato sei paragrafi di testo, nel quinto dei quali è presente la stessa frase dell’articolo originale. Sembra quindi un caso di plagio perché la citazione non è scritta tra virgolette.

È certo però che Perplexity non rispetta il Robot Exclusions Protocol, in quanto effettua lo scraping anche se è stato bloccato l’accesso al suo web crawler (PerplexityBot). Il CEO Aravind Srinivas ha dichiarato che il rispetto del protocollo è volontario. Inoltre ha sottolineato che l’azienda usa anche web crawler di terze parti, senza però svelare il nome del provider.

Il vero problema è che non esiste una legge che impedisce lo scraping dei siti web. Le attuali leggi sul copyright sono vecchie, quindi le aziende sfruttano questo vuoto legislativo per ottenere profitti. Alcune hanno però sottoscritto accordi per evitare denunce, come quella presentata dal New York Times nei confronti di OpenAI.

Aggiornamento: anche OpenAI e Anthropic non rispetterebbero il Robot Exclusions Protocol.

Fonte: Wired
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
24 giu 2024
Link copiato negli appunti