NVIDIA ha utilizzato i video di Netflix, YouTube e altre fonti per l’addestramento dei modelli IA, senza nessuna autorizzazione. Lo scraping effettuato dai dipendenti è stato autorizzato dai dirigenti, come hanno scoperto i giornalisti di 404 Media leggendo documenti, email e chat su Slack. Un portavoce dell’azienda californiana ha dichiarato che è stata rispettata la legge sul copyright.
Chiara violazione dei termini di YouTube
Un ex dipendente ha confermato che i video scaricati da Netflix e YouTube sono stati utilizzati per addestrare un modello IA di Omniverse, i sistemi per la guida autonoma e altri prodotti non ancora disponibili sul mercato. Per aggirare il ban di YouTube sono stati utilizzati un tool open source (yt-dlp) per il download e fino a 30 macchine virtuali su Amazon Web Services con indirizzi IP variabili.
NVIDIA ha utilizzato anche il database di MovieNet (oltre 60.000 trailer), ma la fonte principale è YouTube. Uno dei dataset è HD-VG-130M contenente oltre 130 milioni di video di YouTube (in realtà solo URL e ID). È stato creato dai ricercatori della Peking University in Cina. La licenza specifica però che può essere usato solo per scopi accademici, non per scopi commerciali, come ha fatto NVIDIA.
Un portavoce di NVIDIA ha dichiarato:
Rispettiamo i diritti di tutti i creatori di contenuti e siamo certi che i nostri modelli e i nostri sforzi di ricerca siano pienamente conformi alla lettera e allo spirito della legge sul copyright. La legge sul copyright protegge espressioni particolari, ma non fatti, idee, dati o informazioni. Chiunque è libero di apprendere fatti, idee, dati o informazioni da un’altra fonte e di utilizzarli per creare le proprie espressioni. Il fair use protegge anche la possibilità di utilizzare un’opera per uno scopo trasformativo, come l’addestramento dei modelli.
In pratica, lo scraping sarebbe consentito dalla legge. Un portavoce di Google ha invece risposto che questa attività non rispetta i termini d’uso di YouTube, come aveva già sottolineato il CEO Neal Mohan in riferimento all’addestramento di Sora (OpenAI). Anche Runway sfrutta i video di YouTube.
L’AI Act, in vigore dal 1 agosto, prevede diversi obblighi per i modelli IA general purpose, tra cui quello di svelare i dati usati per l’addestramento e il rispetto della legge sul diritto d’autore.