Il team Facebook AI ha pubblicato i risultati di una ricerca finalizzata all’analisi di due flussi audio vocali sovrapposti al fine di distinguerli per renderli due entità separate. Quel che l’orecchio umano è in grado di fare attraverso uno sforzo di focalizzazione sensoriale, l’Intelligenza Artificiale può farlo con ben maggior difficoltà, ma con ben migliori risultati in prospettiva grazie ai molti campi d’applicazione possibili.
Così l’IA separa due voci sovrapposte
Il progetto prevede l’utilizzo di specifici data sets in grado di superare di molto l’attuale stato dell’arte: grazie al modello posto in essere dai laboratori Facebook non solo è più semplice distinguere due voci che si sovrappongono (ad esempio in una telefonata, in un dialogo o in un ambiente naturale), ma è possibile altresì eliminare il rumore di fondo e far sì che possa emergere soltanto il flusso parlato desiderato:
I campi d’applicazione, come evidente, sono moltissimi. Si potrebbero ad esempio sviluppare tecniche utili a migliorare l’ascolto da parte di utenti che soffrono di ipoacusia, così come si possono istruire strumenti digitali a comprendere istruzioni audio impartite senza far confusione tra più flussi parlati. Un assistente vocale diventerebbe pertanto più preciso, così come uno strumento di registrazione potrebbe meglio distinguere la voce di un singolo utente in mezzo a molte altre persone. Si possono altresì migliorare trascrizioni voce-testo, si possono ottenere sottititoli meglio affinati e si può accelerare su una moltitudine di applicazioni basate su ascolto e interpretazione di flussi audio vocali.
Cosa ciò possa significare per Facebook è facile ad immaginarsi, poiché si tratterebbe di trasformare in informazioni ordinate e catalogabili ciò che fino ad oggi era invece soltanto confusione (così nei video caricati, così nelle tracce audio inviate). Separare le voci con un processo affidabile è pertanto un obiettivo tanto complesso quanto ormai raggiungibile: Facebook ha dimostrato che l’Intelligenza Artificiale possa riuscire laddove l’uomo già poteva, ma dove solo la macchina potrà automatizzare ogni meccanismo per una moltiplicazione estrema dei campi di applicazione possibili.