L’intelligenza artificiale generativa sta facendo grandi progressi nella clonazione vocale, ovvero nella capacità di riprodurre gli stili vocali di una persona – come intonazione, timbro, ritmi, manierismi e pronunce uniche – con la tecnologia.
Alcune startup, come ElevenLabs, hanno ottenuto importanti finanziamenti per dedicarsi a questa ricerca, ma anche Meta Platforms, la società che controlla Facebook, Instagram, WhatsApp e Oculus VR, ha lanciato il suo programma gratuito di clonazione vocale, chiamato Audiobox, con una limitazione.
Audiobox, il programma gratuito di Meta per clonare le voci con l’IA
Audiobox è stato presentato oggi sul sito web di Meta dai ricercatori del laboratorio Facebook AI Research (FAIR), che lo hanno definito come un “nuovo modello di ricerca di base per la generazione di audio”, basato sul loro precedente lavoro in questo campo, Voicebox. “Il programma può generare voci ed effetti sonori usando una combinazione di input vocali e prompt testuali in linguaggio naturale, rendendo più facile la creazione di audio personalizzato per una vasta gamma di applicazioni”.
Per usare Audiobox, basta scrivere una frase che si vuole far dire a una voce clonata o una descrizione di un suono che si vuole produrre, e l’AI farà il resto. Gli utenti possono anche registrare la loro voce e farla clonare da Audiobox.
I modelli di Audiobox per la mimica vocale e la generazione di suoni
Meta ha anche dichiarato di aver creato una “famiglia di modelli”, uno per la mimica vocale e l’altro per la generazione di suoni ambientali ed effetti sonori come l’abbaio del cane, le sirene o i giochi dei bambini, e che sono tutti “costruiti sul modello condiviso auto-supervisionato Audiobox SSL”.
L’apprendimento auto-supervisionato (SSL) è una tecnica di apprendimento profondo (ML) in cui gli algoritmi di intelligenza artificiale devono generare le proprie etichette per i dati non catalogati, a differenza dell’apprendimento supervisionato, in cui i dati sono già etichettati.
I ricercatori hanno pubblicato un documento scientifico in cui spiegano parte della loro metodologia e le ragioni che li hanno portati a scegliere un approccio SSL, scrivendo: “Poiché i dati etichettati non sono sempre disponibili o di alta qualità, e la scalabilità dei dati è la chiave per la generalizzazione, la nostra strategia consiste nell’addestrare questo modello di base usando l’audio senza alcuna supervisione, come le trascrizioni, le didascalie o le etichette degli attributi, che possono essere trovate in quantità maggiori”.
Dati di dubbia provenienza
Ovviamente, la maggior parte dei principali modelli AI dipende in gran parte da dati creati dall’uomo per l’addestramento alla creazione di nuovi contenuti, e Audiobox non fa eccezione. I ricercatori di FAIR hanno usato “160.000 ore di parlato (principalmente inglese), 20.000 ore di musica e 6.000 ore di campioni sonori.
La parte del parlato comprende audiolibri, podcast, frasi lette, discorsi, conversazioni e registrazioni che includono varie condizioni acustiche e voci non verbali. Per garantire l’equità e una buona rappresentazione delle persone appartenenti a vari gruppi, Meta ha inclusi oratori provenienti da oltre 150 Paesi che parlano più di 200 lingue primarie diverse.
Il documento di ricerca non specifica esattamente da dove siano stati ricavati questi dati e se fossero o meno di pubblico dominio, ma questa è sicuramente una questione importante, visto che diversi artisti, autori ed editori musicali hanno fatto causa a una serie di aziende per aver addestrato i loro sistemi AI su materiale potenzialmente protetto da diritti d’autore senza il consenso esplicito dei creatori/proprietari dei diritti.
Come funziona Audiobox
Per usare Audiobox, basta registrare la propria voce che legge una frase di testo. Poi, si può digitare il testo che si vuole far dire alla propria voce clonata e ascoltarlo con la propria voce clonata.
Si può provare questa demo. L’audio clonato generato dall’intelligenza artificiale è molto simile, anche se non identico alla propria voce. Audiobox permette anche di generare voci completamente nuove a partire da descrizioni testuali (es. voce femminile profonda o cani che abbaiano).
Le limitazioni di Audiobox
Audiobox ha però delle limitazioni. Meta ha inserito una clausola di esclusione della responsabilità per le demo interattive di Audiobox, in cui si specifica che “questa è una demo di ricerca e non può essere utilizzata per scopi commerciali”, e inoltre che è riservata a coloro che non si trovano “negli Stati dell’Illinois o del Texas”, che hanno leggi statali che apparentemente vietano il tipo di raccolta audio che Meta fa per le demo.
Inoltre, Audiobox non è open source, come la nuova web app per la generazione di immagini Imagine with Meta AI presentata la scorsa settimana.