Mark Zuckerberg finisce ancora una volta nell’occhio del ciclone. Secondo quanto emerso da alcuni documenti legali, il CEO di Meta avrebbe dato il via libera al team di Llama, l’AI dell’azienda, per utilizzare un dataset di ebook e articoli piratati durante l’addestramento dei modelli.
Zuckerberg ha dato l’ok per addestrare Llama con opere protette da copyright
La rivelazione arriva dalla causa Kadrey v. Meta, una delle tante intentate contro i colossi tech che sviluppano intelligenze artificiali. L’accusa? Aver addestrato i modelli su opere protette da copyright senza permesso. Mentre le aziende si trincerano dietro il “fair use“, la dottrina legale statunitense che consente l’uso di materiale coperto da copyright per creare qualcosa di nuovo, molti creatori contestano questa linea difensiva.
LibGen, il dataset “incriminato”
Stando alle testimonianze di Meta, riportate dai legali degli attori, Zuckerberg avrebbe dato l’ok per usare LibGen, un database di opere piratate di editori come Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education. LibGen, che si autodefinisce un “aggregatore di link”, è stato più volte citato in giudizio, costretto a chiudere e multato per decine di milioni di dollari per violazione del copyright.
Zuckerberg avrebbe ignorato i dubbi e le preoccupazioni interne
Nonostante le perplessità del team esecutivo dell’AI di Meta e di altri dipendenti, che definivano LibGen un “dataset notoriamente piratato” e avvertivano che il suo uso avrebbe potuto “minare la posizione negoziale di Meta con i regolatori“, Zuckerberg avrebbe dato il suo benestare. Un promemoria citato nel deposito legale riporta che, dopo “l’escalation a MZ” (chiaro riferimento a Mark Zuckerberg), il team AI di Meta “ha ricevuto l’approvazione per usare LibGen“.
Ma le accuse non finiscono qui. Secondo i legali degli attori, Meta avrebbe cercato di nascondere le presunte violazioni rimuovendo le informazioni sul copyright dai dati di LibGen utilizzati per addestrare Llama.
In particolare, l’ingegnere di Meta Nikolay Bashlykov avrebbe scritto uno script per eliminare dalle opere digitali parole come “copyright” e “riconoscimenti“. Meta avrebbe anche rimosso i marker di copyright dagli articoli di riviste scientifiche e i metadati sulla provenienza dei dati di addestramento.
Il deposito legale sostiene inoltre che Meta avrebbe scaricato LibGen tramite torrenting. Questo, secondo i legali, equivarrebbe a un’ulteriore forma di violazione del copyright, con Meta che avrebbe contribuito a diffondere i contenuti piratati. Accuse che l’azienda avrebbe cercato di occultare limitando il numero di file caricati, nonostante le riserve espresse da alcuni ingegneri sulla legalità di queste azioni.
Una questione ancora aperta
La causa contro Meta è lungi dall’essere decisa e al momento riguarda solo i primi modelli AI, non le versioni più recenti di Llama. E la corte potrebbe dare ragione all’azienda se persuasa dalla tesi del “fair use“.
Ma le accuse non gettano certo una bella luce su Meta. Come ha notato il giudice Vince Chhabria, respingendo la richiesta dell’azienda di secretare ampie porzioni del deposito legale, “è chiaro che la richiesta di Meta non mira a proteggere informazioni aziendali sensibili che i concorrenti potrebbero usare a loro vantaggio, ma a evitare una pubblicità negativa“.