OpenAI, nel corso di una richiesta alla Camera dei Lord britannica che ha fatto il giro del web, ha dichiarato che sarebbe impossibile addestrare i principali modelli di intelligenza artificiale odierni senza ricorrere a materiali protetti da copyright. Questa affermazione è al centro della difesa pubblica e legale dell’azienda riguardo alle controverse pratiche di scraping di massa dei dati utilizzati per addestrare i suoi modelli di AI, inclusi i modelli linguistici di grandi dimensioni (LLM) GPT-3.5/4 che alimentano il popolare ChatGPT.
La sfida di addestrare l’AI senza violare il copyright
La posizione di OpenAI è condivisa, implicitamente, anche da concorrenti come Google, Mistral, Meta, Anthropic e Cohere. OpenAI sostiene che le sue pratiche di scraping di dati protetti da copyright per addestrare modelli AI costituiscono un uso trasformativo equo, in linea con le norme di Internet consolidate negli anni, dove i contenuti vengono comunemente utilizzati per alimentare motori di ricerca e altre funzioni senza suscitare proteste diffuse.
I critici obiettano invece che l’azienda avrebbe dovuto richiedere un consenso esplicito e/o pagare i diritti di licenza ai proprietari di quei dati protetti. La questione rimane aperta e oggetto di diverse cause legali in corso.
KL3M: un modello che sfida le convenzioni
Un nuovo modello, chiamato KL3M (Kelvin Legal Large Language Model, pronunciato “Clem”), sta mettendo in discussione l’assunto che sia impossibile creare un modello utile senza affidarsi a dati protetti da copyright. KL3M è il frutto del lavoro di 273 Ventures, una startup co-fondata da Daniel Martin Katz, professore di diritto presso l’Illinois Institute of Technology e chief strategy officer (CSO) dell’impresa, e da Michael Bommarito, imprenditore nel settore delle tecnologie legali e CEO di 273 Ventures.
La certificazione “Licensed Model (L)” di Fairly Trained
KL3M, rilasciato alla fine di febbraio 2024, ha ottenuto il primato di essere il primo LLM a ricevere la “Licensed Model (L) Certification” dalla società di revisione indipendente Fairly Trained, un’organizzazione no-profit fondata e guidata dall’ex dirigente di Stability AI Ed Newton-Rex. Questa certificazione viene assegnata solo alle aziende che dimostrano, attraverso un processo di richiesta e revisione, che i dati di addestramento dei loro modelli AI sono stati ottenuti e utilizzati in base a accordi contrattuali con parti che dispongono dei diritti necessari o sono di dominio pubblico/licenza aperta.
Un nuovo approccio all’AI generativa
La certificazione di KL3M da parte di Fairly Trained, insieme ad altre quattro entità (Voicemod, Infinite Album, Lemonaide e Frostbite Orckings), dimostra che è possibile sviluppare modelli AI generativa senza sfruttare opere protette da copyright senza autorizzazione. Questo nuovo approccio potrebbe rappresentare una svolta nel panorama dell’intelligenza artificiale, offrendo una via alternativa per la creazione di modelli utili e rispettosi dei diritti di proprietà intellettuale.