Google apre la propria tecnologia di text-to-speech, da oggi a disposizione di chiunque intenda farne uso sui propri servizi. Il servizio fa parte della gamma di progetti Google Cloud già annunciati alla recente Google Cloud Next 2018 e si candida fortemente a diventare uno standard diffuso in una molteplicità di contesti – nei quali la competizione diretta sarà con l’omologo “Polly” di Amazon Web Service, per il quale al momento non è però disponibile la versione in Italiano. Come a dire: presto o tardi, in auto o al telefono con un call center, sentiremo presto la medesima voce interagire con noi per le più svariate necessità. Da oggi infatti chiunque può accedervi: le API di Google Cloud Text-to-Speech sono aperte al pubblico.
Google Cloud Text-to-Speech
A partire da oggi sono 14 le lingue contemplate per un totale di 30 voci complessive. L’Italiano è tra le lingue comprese nell’elenco e al momento dispone di due varianti disponibili: una “Basic/Standard” ed una “WaveNet“. Quest’ultima versione, sviluppata da DeepMind, riduce pesantemente la differenza tra un flusso vocale reale ed uno artificiale, rendendo l’ascolto estremamente più gradevole e realistico (leggasi: più credibile e performante, che in certi casi può fare realmente la differenza).
Il fatto che le API siano ora pienamente disponibili, adottabili secondo i piani di pagamento messi a disposizione da Google Cloud, apre la tecnologia di intelligenza artificiale Text-to-Speech ad un’ampia varietà di utilizzi. Il team Google, consapevole di questa prospettiva, ha pertanto predisposto un ulteriore affinamento del servizio tale per cui sia possibile scegliere a priori il contesto entro il quale il file verrà utilizzato, così da poterne predeterminare il formato in uscita sulla base dello speaker che sarà adoperato dall’utente finale (con codifiche differenti, ad esempio, per un ascolto da smartwatch, da smartphone, in auto o da impianto audio di qualità). Disponibile inoltre la possibilità di utilizzare codifica SSML (Speech Synthesis Markup Language) utile a definire pronunce particolari, guidando così la voce laddove il problema si fa di più difficile interpretazione da parte degli algoritmi Google.
Le lingue disponibili e le varie opzioni possono essere testate gratuitamente tramite l’apposito tool messo a disposizione sul sito ufficiale del servizio. Il prezzo per l’accesso alla tecnologia Cloud Text-to-Speech è differente in base al tipo di sintesi vocale prescelta:
- Standard: 4$ per 1 milione di caratteri (fino a 4 milioni di caratteri mensili gratuiti)
- WaveNet: 16$ per 1 milione di caratteri (fino a 1 milione di caratteri mensili gratuiti)
I prezzi per l’API Cloud Text-to-Speech vengono calcolati mensilmente in base alla quantità di caratteri da sintetizzare in audio inviati al servizio.
Google Cloud Speech-to-Text
In parallelo Google compie un passo in avanti anche nella direzione uguale e contraria: il servizio Speech-to-Text, pensato per convertire un file vocale in un flusso testuale, giunge a contemplare 120 linguaggi e varianti “per sopportare la tua utenza globale”. Spiega Google: “Puoi abilitare comandi vocali, trascrivere audio da un call center e altro ancora. Puoi processare flussi streaming in tempo reale e audio preregistrato usando la tecnologia Google di machine learning”. Anche in questo caso è stata predisposta una apposita pagina per un test immediato.
A differenza dal servizio Text-to-Speech, quello Speech-to-Text non esce al momento dalla fase di beta test. I prezzi per l’accesso sono definiti in questo caso sulla base di unità di testo della durata di 15 secondi (gratuiti in ogni caso i primi 60 minuti di fruizione):
- Riconoscimento vocale: 0,006$ ogni 15 secondi
- Riconoscimento vocale da video: 0,012$ ogni 15 secondi