Dopo aver lanciato strumenti AI text-to-speech e speech-to-speech, la startup ElevenLabs, fondata da ex dipendenti di Google e Palantir, ha annunciato oggi il lancio di Sound Effects. L’azienda ha presentato il suo modello text-to-sound per la prima volta a febbraio con un post in cui mostrava clip generate da Sora, ma arricchite da effetti sonori AI.
Disponibile da oggi sul sito web di ElevenLabs, Sound Effects consente ai creatori di generare diversi tipi di campioni audio semplicemente digitando una descrizione del suono immaginato.
Una collaborazione vincente con Shutterstock
Grazie alla partnership con Shutterstock, ElevenLabs ha dato vita a Sound Effects, uno strumento che consente di generare campioni audio originali a partire da una semplice descrizione testuale. Questo permette ai creatori di contenuti di tutti i settori (video, podcast, giochi, film, ecc) di arricchire facilmente i loro progetti con effetti sonori personalizzati e di alta qualità, senza doverli registrare o acquistare altrove.
Fino ad oggi, infatti, quando i creatori desideravano aggiungere rumori ambientali ai loro contenuti, dovevano registrarli manualmente o acquistare/licenziare file audio da diversi archivi online. Un approccio che spesso si scontrava con la difficoltà di trovare esattamente l’audio desiderato o con i limiti di budget.
Sound Effects di ElevenLabs rivoluziona questo scenario. In pratica, l’utente può digitare una frase che descrive il suono o l’effetto sonoro desiderato (ad esempio “tuono in lontananza”, “onda che si infrange”, etc.) e Sound Effects genera automaticamente 6 esempi diversi tra cui scegliere, il tutto in soli 30-40 secondi.
ElevenLabs si aspetta che Sound Effects venga rapidamente adottato da chiunque abbia bisogno di effetti audio professionali per dare vita alle proprie idee creative.
Le potenzialità di Sound Effects
Ma le sorprese non finiscono qui. Mati Staniszewski, CEO di ElevenLabs, ha rivelato che lo strumento può spingersi oltre, producendo campioni audio più lunghi come musica strumentale e voci di personaggi. Brani musicali fino a 22 secondi, con proposte come loop di chitarra o assolo di sassofono jazz, e una varietà di voci di personaggi, da una donna che canta sulla sabbia a un orco minaccioso.
La capacità di Sound Effects di generare effetti sonori realistici e di alta qualità, si basa sulla tecnologia sviluppata internamente da ElevenLabs e sull’ampia libreria di contenuti audio di Shutterstock utilizzata come dataset di partenza per l’addestramento.
Modelli musicali e voiceover in cantiere
L’azienda ha in programma di lanciare anche un modello di generazione musicale e uno strumento di voiceover, attualmente in fase alfa. Staniszewski spera che i creatori possano utilizzare Sound Effects in tutti i settori, dagli studi cinematografici e televisivi agli sviluppatori di videogiochi, passando per il marketing e i contenuti per i social media.
Con un mercato globale stimato in quasi 5 miliardi di dollari nel 2032, ElevenLabs si posiziona come un player di riferimento nel settore della generazione di voce, suoni e musica, al fianco di colossi come Google e Meta.