Il boom dell’intelligenza artificiale generativa ha visto la diffusione di strumenti elaborati anche nell’industria musicale, per il dispiacere degli artisti. Già in passato abbiamo parlato del rapporto tra musica e IA, anticipando un futuro arricchito – e al contempo minacciato – da applicazioni come MusicLM di Google per generare brani musicali da zero, semplicemente fornendo descrizioni testuali. A oggi buona parte di questi modelli IA è disponibile esclusivamente a sviluppatori e tester, o magari previo pagamento di un abbonamento particolarmente costoso. Il caso di AudioCraft è però alquanto differente.
Quando Meta ha annunciato AudioCraft ha chiarito immediatamente che si tratterà di uno strumento IA gratuito e open source per generare audio e musica di alta qualità e realistici a partire da un testo singolo, più o meno dettagliato. Ma come funziona esattamente, quali sono i suoi benefici e i rischi che il settore corre?
Cos’è Audiocraft?
Il modo più semplice per descrivere AudioCraft lo abbiamo già posto sopra: è un’intelligenza artificiale generativa che, a partire da un input testuale, realizza un output sonoro più o meno elaborato, frutto dell’addestramento su effetti sonori pubblici royalty-free. Cosa significa? Molto semplicemente, i file audio generati dall’intelligenza artificiale non sono soggetti al copyright e possono essere utilizzati liberamente, essendo l’insieme di strumenti di AudioCraft accessibile a costo zero e facilmente analizzabile nel codice sorgente.
Difatti, Meta ha reso disponibili tre modelli: MusicGen, AudioGen e EnCodec. Il primo opera sulla base di musica di proprietà di Meta e alcuni file protetti da diritto d’autore al quale il gigante di Mark Zuckerberg ha ottenuto accesso. Il secondo genera suoni ambientali ed effetti sonori come il clacson di un’auto o il rumore di passi su varie superfici. Infine, EnCodec migliora la qualità della musica generata riducendo gli artefatti.
Il funzionamento è visibile nell’immagine soprastante: l’utente dà in pasto un input testuale all’intelligenza artificiale che, dunque, sfruttando il codec neurale di EnCodec analizza i sample musicali e sfrutta un “vocabolario” interno per cercare parametri simili e infine comporre un file audio nuovo di zecca, fornendo sempre output differenti. Come possiamo esserne così sicuri? Basta considerare che MusicGen è un modello di generazione audio specifico per la musica addestrato su circa 400.000 registrazioni, insieme a descrizioni di testo e metadati, per un totale di 20.000 ore di musica di proprietà di Meta o concessa in licenza appositamente per questo scopo.
I benefici per creator e artisti
Il primo, chiaro vantaggio di questo pacchetto firmato Meta è la natura open source: ricercatori e professionisti potranno accedere al codice sorgente per introdurre i propri set di dati e contribuire al progresso del settore audio in rapporto con l’intelligenza artificiale. Ne consegue, all’atto pratico, che un aspirante artista ancora incapace di suonare bene uno strumento può sfruttare AudioCraft per dare sfogo alla sua creatività. O ancora, un musicista professionista potrebbe realizzare nuove basi e brani inediti tramite l’IA, addestrandola con la propria musica. Infine, i creatori di suoni ambientali ed effetti sonori senza copyright potranno sbizzarrirsi nella composizione rapida di soluzioni per film, serie TV e video.
In più, AudioCraft racchiude tutto lo stretto necessario per musica, suono, compressione e generazione di brani in un unico pacchetto, facile da costruire e riutilizzare. Con una solida base open source è possibile favorire l’innovazione e facilitare l’integrazione su altre piattaforme, online e non. Meta descrive questi strumenti come “una famiglia di modelli in grado di produrre audio di alta qualità e coerenti anche sul lungo termine, semplificando la progettazione complessiva di modelli generativi per l’audio”. Insomma, è la ricetta completa per il settore audio, al quale darà un ulteriore slancio. Ma sarà davvero così?
Gli svantaggi
Quando si parla di intelligenza artificiale generativa è inevitabile pensare alla possibile perdita di lavoro per coloro che potrebbero venire sostituiti dall’IA e dagli algoritmi. In questo caso specifico, se da un lato la sperimentazione musicale può alimentare la creatività e incentivare la produzione di file audio e brani – soprattutto per i giovani artisti -, dall’altro i compositori e amatori che si cimentano nella stessa attività potrebbero trovarsi privati di lavoro da svolgere. La tentazione di affidarsi esclusivamente all’IA gratuita di Meta, del resto, potrebbe convincere gli artisti a legarsi ad AudioCraft ed evitare spese aggiuntive.
Un fattore che potrebbe giocare a favore dei compositori è la qualità dell’output sonoro. Nonostante sia destinato solamente a migliorare, il pacchetto di AudioCraft è tutt’altro che perfetto e può sempre restituire all’utente un progetto incompleto, colmo di errori o dal potenziale inespresso. Infine, come vanno considerati i progetti audio realizzati dall’IA per il diritto d’autore? Se lo strumento in sé è open source, l’artista e/o l’etichetta discografica possono rivendicare il copyright sul brano? Questa domanda è ancora senza risposta: negli Stati Uniti si parla di “copyright ibrido”, per cui la proprietà intellettuale viene suddivisa per gradi, ma è ancora una soluzione teorica da analizzare a dovere.
Proprio per queste ragioni Meta sta concedendo l’accesso in anteprima a ricercatori ed esperti, pronti a offrire il loro feedback alla società sull’efficacia di AudioCraft e sul rispetto dei principi dell’IA responsabile fissati dalla stessa azienda di Menlo Park, che conclude: “AudioCraft è un importante passo avanti nella ricerca sull’IA generativa. Riteniamo che il semplice approccio che abbiamo sviluppato per generare con successo campioni audio coerenti e di alta qualità avrà un impatto significativo sullo sviluppo di modelli avanzati, e non vediamo l’ora di vedere cosa le persone creeranno”.