Anthropic ha addestrato l'AI con libri coperti da copyright?

Anthropic ha addestrato l'AI con libri coperti da copyright?

Gli autori accusano Anthropic di aver violato il copyright addestrando i suoi modelli AI su libri piratati presenti nel dataset Books3.
Anthropic ha addestrato l'AI con libri coperti da copyright?
Gli autori accusano Anthropic di aver violato il copyright addestrando i suoi modelli AI su libri piratati presenti nel dataset Books3.

Come riportato da Reuters, un gruppo di autori ha accusato Anthropic di aver addestrato i suoi modelli su libri piratati. Questa azione legale solleva importanti questioni sul rispetto del copyright e sull’etica nell’addestramento dell’AI.

La causa contro Anthropic: un’accusa di furto di proprietà intellettuale

Lunedì, un gruppo di autori ha depositato una proposta di azione legale collettiva presso un tribunale della California, sostenendo che Anthropic ha costruito un impero multimiliardario sulla base di centinaia di migliaia di libri protetti da copyright. Secondo gli autori, l’azienda avrebbe utilizzato un vasto set di dati open-source chiamato “The Pile”, che include una libreria di ebook piratati nota come Books3, per addestrare la sua famiglia di chatbot Claude AI.

The Pile e Books3: una fonte controversa di dati

La causa afferma che Anthropic era consapevole del fatto che The Pile e Books3 contenessero materiale protetto da copyright proveniente da siti web pirata come Bibiliotik. Nonostante Books3 sia stato rimosso dalla versione più recente di The Pile, gli autori sostengono che la versione originale sia ancora disponibile online. Inoltre, un’indagine ha rivelato che anche altre aziende, come Apple, avrebbero addestrato i loro modelli di AI su sottotitoli di video di YouTube presenti in The Pile (anche se Apple ha smentito la notizia).

Le richieste degli autori e le potenziali conseguenze

Gli autori coinvolti nella causa, tra cui Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, chiedono al tribunale di certificare la loro azione legale collettiva e di obbligare Anthropic a pagare i danni proposti, oltre a impedire all’azienda di utilizzare materiale protetto da copyright in futuro. Se la causa avrà successo, potrebbe avere un impatto significativo sul modo in cui le aziende di AI addestrano i loro modelli e sulle fonti di dati che utilizzano.

Un problema diffuso nell’industria dell’AI

La causa contro Anthropic non è un caso isolato. L’anno scorso, un gruppo di autori, tra cui l’ex governatore dell’Arkansas Mike Huckabee, ha intentato una causa simile contro Meta, Microsoft ed EleutherAI per l’presunto utilizzo di materiale protetto da copyright nell’addestramento dei loro modelli AI. Anche celebrità del calibro di George R.R. Martin, Jodi Picoult e Michael Chabon hanno citato in giudizio OpenAI per lo stesso motivo.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
21 ago 2024
Link copiato negli appunti