AT&T dà voce umana alle macchine

Il gigante USA lavora ad una tecnologia di sintesi vocale che mira a replicare la voce di una persona in tutte le sue sfumature

Menlo Park (USA) - Gli AT&T Labs da anni portano avanti ricerche inerenti alle tecnologie "text-to-speech", ricerche che oggi fanno intravedere all'orizzonte una possibilità che potrebbe dar vita ad un nuovo e gigantesco business legato alla sintesi vocale: clonare in modo verosimile la voce umana.

Ciò che esalta maggiormente i potenziali clienti di questa tecnologia è la possibilità di poter riportare in vita la voce di celebrità da lungo tempo scomparse, come quelle di cantanti, showman, cronisti o uomini di stato.

Sebbene ad oggi questo non sia ancora del tutto possibile, il software che più si avvicina a risultati di questo tipo è Natural Voices sviluppato dagli AT&T Labs. Il prodotto, già testato in diverse situazioni reali, è in grado di riprodurre la voce di una persona imitandone le inflessioni e gli accenti. Nonostante che l'attuale tecnologia ancora non permetta di ottenere risultati ottimali, e sia dunque ancora possibile distinguere nella voce sintetica quei timbri metallici e quelle tonalità robotiche tipiche della sintesi vocale, i risultati sembrano aver già entusiasmato un buon numero di tester.
I potenziali clienti di Natural Voices sono soprattutto da ricercarsi nei call center, nelle stazioni radiofoniche e nei produttori di dispositivi in grado di interagire vocalmente con l'utente.

Sebbene il riportare in vita voci di celebrità ormai scomparse abbia eccitato la fantasia di molti, soprattutto di chi già traduce tutto questo in dollari sonanti, altri hanno sollevato la delicata questione su chi detenga i diritti di sfruttamento della voce di una celebrità. Forse i prossimi contratti prevederanno una clausola specifica...

Per il momento, come si è detto, la voce della macchina può ancora essere ben distinta da quella umana, ma che succederà quando, con un semplice computer, sarà possibile clonare alla perfezione la voce di chiunque? A questa domanda gli scienziati di AT&T rispondono che per riprodurre la voce di una persona è necessario che questa si sottoponga a lunghe sessioni di dettatura, della durata di 10-40 ore, in uno studio di registrazione ed in presenza di personale tecnico che sappia poi convertire il tutto in dati assimilabili dal motore di sintesi vocale di Natural Voices: un'operazione alla portata di pochissime persone.

Una dimostrazione della tecnologia di Natural Voices è disponibile qui, dove si possono scaricare alcuni file audio prodotti dal nuovo motore di sintesi vocale degli AT&T Labs.
TAG: ricerca
11 Commenti alla Notizia AT&T dà voce umana alle macchine
Ordina