Un po’ come DALL-E di OpenAI, ma per la sintesi vocale: Voicebox è l’ultima novità annunciata dal team di Meta al lavoro sui progetti di intelligenza artificiale. Si tratta di un modello di IA generativa che, secondo il gruppo guidato da Mark Zuckerberg, potrà tornare utile in futuro in una moltitudine di situazioni e contesti, dalle operazioni legate all’editing alla creazione di clip sonore da impiegare in servizi, applicazioni e giochi, con un occhio di riguardo ai content creator.
Voicebox: l’IA di Meta per la sintesi vocale
È doveroso precisare che si tratta al momento di una tecnologia sperimentale, dunque non ancora fruibile. Ad ogni modo, non fatichiamo a immaginare i suoi potenziali impieghi, descritti anche nel post di presentazione e nella demo qui sotto. Anzitutto, la realizzazione di file audio in cui un testo è letto e pronunciato da una voce le cui caratteristiche sono stabilite da chi esegue il comando, così come lo stile e l’intonazione. Poi, negli screen reader, per l’accessibilità da parte di ciechi e ipovedenti. Ancora, è in grado di rimuovere in modo selettivi disturbi e rumori di fondo partendo da una registrazione.
Di certo, gli algoritmi di sintesi vocale non sono una novità. Meta ha però intenzione di evolverli, facendo leva proprio sulle più recenti novità emerse nel territorio dell’intelligenza artificiale. In questa prima fase, il modello è in grado di riconoscere (e riprodurre) in modo efficace sei lingue: inglese, francese, tedesco, spagnolo, polacco e portoghese.
Tra i vantaggi che la società (la stessa che controlla Facebook, Instagram e WhatsApp) vanta ci sono anche prestazioni di gran lunga più elevate rispetto a quelle delle alternative oggi in circolazione: fino a venti volte superiori. Tutti gli altri dettagli di natura tecnica a proposito di Voicebox sono consultabili nel post di annuncio e nell’approfondimento dedicato.