Il nuovo parto dell’intelligenza artificiale di Google si chiama WaveNet , “un modello per la generazione di onde audio grezze” che sfrutta tecniche basate sulle reti neurali per mimare con maggior fedeltà il tono naturale della voce umana. WaveNet suona meno artificiale che mai , anche se i prerequisiti per il suo corretto funzionamento non sono da poco.
Il nuovo modello di IA è frutto di DeepMind, divisione di Mountain View specializzata nello sviluppo di applicazioni pratiche a base di reti neurali, e la tecnologia vuole andare oltre i metodi sin qui seguiti per “sintetizzare” la voce umana come i metodi “concatenative text-to-speech” (TTS) e “parametric text-to-speech” (PTS).
Il sistema TTS consiste nell’accorpamento di singoli elementi fonetici per replicare le parole, mentre PTS utilizza una serie di algoritmi per processare il suono dalle conversazioni audio: secondo Google il metodo PTS può avere effetti anche peggiori di TTS nelle lingue sillabiche come l’inglese.
Le reti neurali di WaveNet provano a risolvere il problema mimando il (presunto) funzionamento del cervello umano, avendo a disposizione la capacità di processare un gran numero di informazioni per eseguire un compito specifico.
La nuova IA di Google/DeepMind modella le onde sonore “una campionatura alla volta”, gestendo circa 16.000 campioni al secondo e necessitando quindi di una capacità di calcolo molto vasta. Le reti neurali di WaveNet sono poi “addestrate” attraverso la registrazione di conversazioni umane , un lavoro che permette agli algoritmi intelligenti di prevedere probabilisticamente il campione sonoro da eseguire rispetto al precedente.
L’addestramento di WaveNet senza prima fornirgli un “pattern” testuale definito porta alla generazione di un sonoro senza senso, mentre nel caso contrario Google dice di poter ridurre del 50 per cento la differenza ancora esistente tra la voce artificiale e quella umana usando l’inglese americano o il mandarino come lingue di riferimento.
Alfonso Maruccia