Anche Medium blocca il crawler di OpenAI

Anche Medium blocca il crawler di OpenAI

Anche Medium impedirà ai crawler di OpenAI e altre aziende di utilizzare agli articoli pubblicati per l'addestramento dei modelli IA.
Anche Medium blocca il crawler di OpenAI
Anche Medium impedirà ai crawler di OpenAI e altre aziende di utilizzare agli articoli pubblicati per l'addestramento dei modelli IA.

Il CEO Tony Stubblebine ha annunciato che Medium bloccherà l’accesso al crawler di OpenAI e di altre aziende IA. La piattaforma non consentirà di utilizzare gli articoli pubblicati per l’addestramento dei modelli di intelligenza artificiale generativa, senza un preventivo consenso da parte degli autori. La stessa decisione è stata adottata da altri noti media, tra cui Reuters, CNN e New York Times.

Le aziende IA derubano gli autori

Il CEO sottolinea che i miglioramenti dei modelli IA sono stati ottenuti grazie all’addestramento con immagini e testo disponibili su Internet, incluse le storie scritte su Medium. Le aziende incrementano i guadagni sfruttando gli articoli senza il consenso degli autori, né un compenso o l’indicazione della fonte. In molti casi vengono generati articoli che non sono altro che spam (contenuti di bassissima qualità).

Per questo motivo, Medium bloccherà lo scraping da parte dei crawler (o spider), come indicato nei termini del servizio. È stato già aggiunto il blocco per GPTBot al file robots.txt. OpenAI è l’unica azienda che lo permette (presto sarà possibile bloccare anche il crawler di Google).

Questa soluzione non è tuttavia molto efficace al momento. Infatti è necessario aggiungere il blocco per tutti crawler. Inoltre è un blocco attivo per l’intero sito, mentre sarebbe più utile un blocco in base all’autore o all’articolo. Il CEO afferma che ci sarebbero altri modi per ostacolare lo scraping, tra cui il “poisoning” (avvelenamento) delle risposte fornite dai chatbot tramite il redirecting dei crawler verso contenuti fake, ma ciò richiede tempo e denaro.

Nel caso di Medium, il consenso deve essere fornito dai singoli autori, in quanto loro rimangono i detentori del copyright anche dopo la pubblicazione degli articoli. È inoltre difficile indicare la fonte, in quanto le risposte dei chatbot sono basate su miliardi di input. Altrettanto complicata è la negoziazione del compenso perché non è possibile calcolare con esattezza il valore di ogni singolo articolo.

Fonte: Medium
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
30 set 2023
Link copiato negli appunti