I ricercatori di Google hanno sviluppato un’intelligenza artificiale che può generare brani musicali a partire da un testo scritto. MusicLM potrebbe essere definita la versione “audio” di DALL-E (che genera immagini). L’azienda di Mountain View ha condiviso alcuni esempi che dimostrato la qualità del risultato finale. La tecnologia non verrà rilasciata pubblicamente, in quanto potrebbero esserci problemi di copyright.
Musica creata da una descrizione testuale
MusicLM non è ovviamente il primo sistema IA in grado di generare brani musicali, ma è sicuramente superiore agli altri in termini di qualità audio e aderenza alla descrizione testuale. I modelli sono stati addestrati con oltre 280.000 ore di musica e consentono di ottenere audio a 24 kHz. In molti casi, il risultato finale è piuttosto sorprendente, in quanto sembra che le melodie siano state scritte da un essere umano. In alcuni casi invece si capisce subito l’intervento digitale.
Google ha pubblicato diversi esempi. L’intelligenza artificiale può generare audio a partire da descrizioni testuali lunghe del tipo “La colonna sonora principale di un gioco arcade. È veloce e allegra con un orecchiabile riff di chitarra elettrica. La musica è ripetitiva e facile da ricordare, ma con suoni inaspettati, come colpi di piatti o rulli di tamburi“. Questo è il risultato:
Sono sufficienti invece due parole (ad esempio “melodic techno”) per ottenere questo brano di 5 minuti:
MusicLM può anche generare audio a partire da una sequenza di descrizioni (ad esempio, una per ogni genere musicale). È possibile inoltre specificare lo strumento musicale, il genere, il livello di esperienza del musicista, i luoghi e le epoche. Il sistema IA può infine generare la voce umana, ma i risultati non sono eccezionali (le parole sono incomprensibili).
Anche se solo l’1% della musica generata è simile a quella usata per addestrare l’intelligenza artificiale, Google non rilascerà MusicLM al pubblico per evitare problemi con il copyright.