Patronus AI, azienda fondata da ex ricercatori di Meta, ha sviluppato un tool che permette di rilevare la percentuale di contenuti protetti dal diritto d’autore generati da quattro modelli IA. I risultati di CopyrightCatcher dimostrano che GPT-4 è il peggiore per quanto riguarda la violazione del copyright.
OpenAI “ruba” più di tutti
I modelli di intelligenza artificiale generativa sono addestrati con dati pubblici “rastrellati” (da cui il termine scraping) su Internet. Spesso sono inclusi anche contenuti protetti dal diritto d’autore. I chatbot, come ChatGPT, dovrebbero evitare la riproduzione esatta o quasi di tali contenuti in risposta ai prompt degli utenti.
OpenAI, Microsoft e Anthropic hanno già ricevuto numerose denunce da scrittori, case discografiche e editori, tra cui il New York Times, per aver utilizzato i dati senza autorizzazione. Patronus AI ha creato CopyrightCatcher per rilevare se i modelli IA generano l’esatta riproduzione di contenuti protetti dal copyright.
In dettaglio sono stati testati i modelli GPT-4 (OpenAI), Mixtral-8x7B (Mistral AI), Claude 2.1 (Anthropic) e Llama 2-70B (Meta) con 100 prompt relativi a libri protetti dal diritto d’autore negli Stati Uniti. È stato chiesto ai modelli di scrivere il primo passaggio di un libro e di completare il testo a partire da un estratto.
GPT-4 è il modello che ha violato più spesso il copyright (43% in media), seguito da Mixtral-8x7B (22%), Llama 2-70B (10%) e Claude 2.1 (8%). In alcuni casi è possibile però aggirare i filtri. Claude 2.1 non risponde quando viene chiesto il primo passaggio di un libro, ma completa il testo nel 56% dei casi se non viene indicato il nome del libro.
Una demo pubblica di CopyrightCatcher è disponibile qui per testare i modelli open source di Mixtral e Meta.