OpenAI ha annunciano una versione preliminare di Voice Engine, un modello text-to-speech che può generare una voce sintetica a partire da un input testuale e un campione audio di 15 secondi. La tecnologia, sviluppata da fine 2022 e usata per la funzionalità Read Aloud di ChatGPT, può essere testata solo da un numero limitato di partner.
Solo 15 secondi di audio per clonare la voce
Voice Engine è stato addestrato con un mix di dati pubblici e concessi in licenza (OpenAI non ha fornito dettagli). Il modello genera una voce quasi identica a quella originale, dopo aver ricevuto come input un campione audio di 15 secondi.
Può essere utilizzato per varie applicazioni. Sul blog ufficiale sono stati pubblicati alcuni esempi forniti dai partner. Age of Learning ha creato un tool di assistenza alla lettura, mentre HeyGen ha usato Voice Engine per la traduzione di audio dall’inglese ad altre lingue (spagnolo, francese, tedesco, giapponese e mandarino).
Questi modelli possono essere sfruttati anche per generare deepfake audio. OpenAI è consapevole dei rischi, pertanto Voice Engine viene al momento testato da pochi partner selezionati che devono rispettare rigorosamente le regole. È vietato usare il modello per clonare una voce senza il consenso esplicito e informato dello speaker originale.
I partner devono inoltre svelare che la voce è stata generata dall’intelligenza artificiale e implementare una serie di misure per tracciare l’origine di ogni audio generato (ad esempio tramite watermarking). Prima del rollout generale devono essere risolti diversi problemi di privacy e sicurezza.
Rimanendo in tema, Microsoft e OpenAI avrebbero pianificato la realizzazione di un data center che ospiterà un supercomputer IA denominato Stargate. Secondo le fonti di The Information, la spesa è superiore a 100 miliardi di dollari.