Dopo New York Times, CNN e Reuters anche la BBC ha deciso di bloccare lo scraping dei dati effettuato da OpenAI senza permesso. La società concessionaria in esclusiva del servizio pubblico radiotelevisivo, nonché il più grande editore del Regno Unito, non vuole che i contenuti pubblicati siano utilizzati per l’addestramento di ChatGPT e altri modelli di intelligenza artificiale generativa.
BBC blocca il crawler di OpenAI
La BBC evidenzia che l’IA generativa, in grado di creare testo, immagini, voce, audio e video, rappresenti un’opportunità da sfruttare per offrire “più valore” al pubblico e alla società. La tecnologia permette anche di eseguire alcune attività in modo più efficiente (ad esempio il lavoro di produzione e back office). Tuttavia ci sono diversi rischi (etici, legali e di copyright), oltre al pericolo di incrementare la diffusione di fake news.
La BBC ha quindi annunciato i tre principi che guideranno l’uso dell’IA generativa. Innanzitutto verrà valutato come la tecnologia potrebbe offrire valore al pubblico, cercando di mitigare i rischi. L’editore rispetterà il diritto d’autore e gli articoli verranno sempre scritti da umani. Se ci saranno alcuni contenuti IA, i lettori verranno chiaramente informati.
La BBC promette infine di salvaguardare l’interesse dei contribuenti (i cittadini che pagano il canone), quindi sono stati bloccati i crawler di OpenAI e Common Crawl per impedire lo scraping dei dati dai siti. Come si può leggere nel file robots.txt, la BBC ha bloccato l’accesso a CCBot (Common Crawl), GPTBot (crawler di OpenAI) e ChatGPT-User. Quest’ultimo è il crawler usato dai plugin di ChatGPT.
L’editore verificherà inoltre l’impatto dell’IA generativa sul traffico proveniente dai motori di ricerca. Associated Press ha invece deciso di permettere l’uso delle news per l’addestramento dei modelli di OpenAI tramite un accordo di licenza.