I modelli OpenAI memorizzano contenuti coperti da copyright?

OpenAI si trova al centro dell’ennesima bufera legale. Autori, programmatori e altri detentori di diritti accusano l’azienda di aver utilizzato le loro opere (libri, codici e altro) per addestrare i propri modelli AI senza permesso. OpenAI si è sempre difesa invocando il “fair use“, ma i querelanti sostengono che la legge sul copyright statunitense non preveda eccezioni per i dati di addestramento.

I modelli di OpenAI hanno memorizzato brani di libri e articoli protetti da copyright?

Ora, un nuovo studio sembra dare credito alle accuse. I ricercatori delle università di Washington, Copenaghen e Stanford hanno proposto un metodo per identificare i dati di addestramento “memorizzati” dai modelli accessibili tramite API, come quelli di OpenAI.

I modelli AI sono, in sostanza, motori di previsione. Addestrati su enormi quantità di dati, imparano schemi e pattern che poi usano per generare testi, foto e altro. La maggior parte degli output non sono copie esatte dei dati di addestramento, ma alcuni inevitabilmente lo sono. Si è scoperto che alcuni modelli di immagini rigurgitano screenshot dei film su cui sono stati addestrati, mentre alcuni modelli di linguaggio plagiano di fatto articoli di giornale.

Il metodo proposto dallo studio si basa su quelle che gli autori chiamano parole “ad alta sorpresa”, ovvero parole che spiccano come insolite nel contesto di un’opera più ampia. Ad esempio, la parola “radar” nella frase “Jack e io sedevamo perfettamente fermi con il radar che ronzava” sarebbe considerata ad alta sorpresa perché, in un contesto simile, sarebbe più comune trovare parole come “motore” o “radio” prima del verbo “ronzava”. La presenza di un termine inusuale come “radar” crea quindi un piccolo scarto di previsione che il nostro cervello registra come interessante o significativo.

I ricercatori hanno testato diversi modelli di OpenAI, tra cui GPT-4 e GPT-3.5. Hanno rimosso le parole ad alta sorpresa da brani di libri di narrativa e articoli del New York Times, chiedendo poi ai modelli di “indovinare” le parole mascherate. Se i modelli ci riuscivano, probabilmente avevano memorizzato il brano durante l’addestramento.

I risultati dei test suggeriscono che GPT-4 ha memorizzato parti di libri di narrativa popolari, inclusi libri in un dataset chiamato BookMIA che contiene campioni di ebook protetti da copyright. I risultati indicano anche che il modello ha memorizzato parti di articoli del New York Times, anche se in misura minore.

OpenAI invoca il fair use

Da molto tempo OpenAI sostiene che sia necessario rendere più flessibili le regole sull’uso di contenuti protetti da copyright per addestrare i modelli di intelligenza artificiale. L’azienda ha stretto anche alcuni accordi di licenza con editori o creatori di contenuti e permette anche ai titolari dei diritti di scegliere di non far usare le proprie opere, attraverso specifici meccanismi di opt-out.

OpenAI ha cercato di influenzare governi e legislatori affinché vengano introdotte norme che permettano un uso più ampio e legittimo dei contenuti esistenti per fini di addestramento AI, anche senza autorizzazione esplicita — facendo leva sul “fair use“. Un concetto spinoso e ancora irrisolto.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech