Sarah Silverman, Christopher Golden e Richard Kadrey hanno denunciato OpenAI e Meta per violazione dei diritti d’autore. Gli avvocati dei tre scrittori sono gli stessi che rappresentano Paul Tremblay e Mona Awad, altri due autori che hanno presentato una simile denuncia contro l’azienda di Sam Altman.
Scraping dei libri senza permesso
I cosiddetti LLM (Large Language Model) vengono addestrati con i dati raccolti su Internet. La tecnica è nota come scraping. Secondo Silverman, Golden e Kadrey, il training dei modelli GPT-3.5/4 di OpenAI e LLaMA di Meta è stato effettuato attraverso l’acquisizione di dataset contenenti copie digitali dei loro libri, acquisite illegalmente da Bibliotik, Library Genesis, Z-Library e altri siti.
Nella denuncia contro OpenAI sono allegate le risposte fornite da ChatGPT, quando l’utente chiede un riassunto dei libri. In pratica, il chatbot riproduce parti dei libri senza consenso, violando il diritto d’autore. Nel caso di Meta, i modelli LLaMA usano ThePile come fonte dei dati. ThePile preleva le copie digitali dei libri da Bibliotik, una delle tante “shadow library”.
I tre autori accusano OpenAI e Meta anche di ingiusto arricchimento e concorrenza sleale, chiedendo al giudice di avviare una class action per ottenere un’ingiunzione permanente, il risarcimento dei danni e il rimborso delle spese legali. Gli avvocati Joseph Saveri e Matthew Butterick sono gli stessi che difendono gli autori Paul Tremblay e Mona Awad.
La legge AI Act, attualmente in discussione in Europa, prevede l’obbligo di comunicare i dati protetti dal copyright usati per l’addestramento dei modelli IA. All’inizio del mese, OpenAI è stata denunciata per violazione della privacy e ha bloccato l’uso della funzionalità Browse with Bing perché consente di aggirare i paywall.