Google ha annunciato MusicLM a fine gennaio, ma il modello IA non è pubblico. Meta ha invece rilasciato MusicGen su GitHub, in particolare la libreria che consente di generare audio a partire da un input testuale. Sul sito Hugging Face è disponibile anche una demo per testare la tecnologia.
Meta MusicGen, dal testo alla musica
Generare musica a partire da un input testuale non è un’operazione semplice. A differenza della voce è necessario considerare l’intero spettro di frequenze e un campionamento del segnale a 44,1 o 48 kHz (contro i 16 kHz della voce umana). La musica contiene inoltre armonie e melodie di vari strumenti, quindi il risultato finale non è solo un miscuglio di note.
La soluzione sviluppata da Meta prevede l’uso di un modello Transformer a singolo stadio che elabora in parallelo diversi stream di dati musicali denominati token. MusicGen sfrutta il modello Audiocraft che Meta ha addestrato con 20.000 ore di musica, ovvero un dataset interno con 10.000 tracce, oltre che quelle di Shutterstock e Pond5.
MusicGen può generare musica da una descrizione testuale, ma l’utente può anche “suggerire” una melodia base caricando un file audio. I ricercatori hanno effettuato test con quattro modelli: 300 milioni di parametri, 1,5 miliardi di parametri (con e senza melodia di base) e 3,3 miliardi di parametri. Il risultato migliore si ottiene con il modello più grande, ma quello intermedio è comunque sufficiente (richiede meno potenza di calcolo).
La demo permette di generare un audio in formato MP4. È possibile anche aggiungere una melodia in formato MP3. Come si può ascoltare in questa pagina, la qualità di Meta MusicGen è simile a quello di Google MusicLM.
Inserendo come input “rock with saturated guitars, a heavy bass line and crazy drum break and fills” si ottiene questo risultato con il modello da 3,3 miliardi di parametri: