La lettura delle labbra è una pratica complessa, ma necessaria per abbattere le barriere della comunicazione. Normalmente i professionisti della lettura labiale riescono ad essere accurati con una precisione che può oscillare dal 20 al 60 per cento poiché nella velocità di un normale discorso le lievi variazioni delle labbra, così come la distanza o una parziale copertura del soggetto rendono difficoltoso capire cos’è stato detto.
Un team di ricercatori del Dipartimento di Informatica dell’Università di Oxford ha sviluppato un software di lettura delle labbra chiamato LipNet supportato in parte da Deep Mind di Alphabet che grazie a un approccio differente vanta una percentuale di riconoscimento del parlato del 93 per cento.
Nel campo dell’Intelligenza Artificiale (IA) esisteva già da tempo un software con precisione di riconoscimento del labiale del 79,6 per cento, basato su un riconoscimento per singola parola. L’innovazione di di LipNet, come specificato nel documento di descrizione consiste nel diverso approccio usato per riconoscere il testo pronunciato. Piuttosto che proseguire nell’utilizzare il sistema di riconoscimento per singola parola, insegnando all’IA ogni movimento della bocca tramite fonemi visivi, si è progettato il software in modo da elaborare intere frasi, permettendo così all’IA di imparare quale lettera corrispondesse ad ogni singolo leggero movimento della bocca.
Per addestrare il sistema, i ricercatori hanno mostrato all’intelligenza artificiale quasi 29.000 video lunghi 3 secondi ed etichettati con il testo corretto . Per capire come i lettori di labiale umani fossero in grado di gestire lo stesso compito, il team ha reclutato tre membri della comunità degli studenti disabili di Oxford testandoli con 300 video casuali simili a quelli usati per istruire l’intelligenza artificiale. Il tasso di errore medio degli umani è stato del 47,7 per cento, rispetto al 6,6 per cento dell’IA .
Nonostante il successo del progetto vengono rivelati anche alcuni dei limiti della moderna ricerca sull’intelligenza artificiale poiché il team di Oxford ha utilizzato un set di video accuratamente scelto per insegnare all’IA come leggere le labbra. Ogni persona è stata rivolta in avanti, ben illuminata, e ha parlato con una struttura della frase standardizzata.
“Place blue in m 1 soon” (ossia “posiziona blu in m 1 presto”) è una delle frasi standard da 3 secondi utilizzate composta da un comando, un colore, una preposizione, una lettera, un numero da 1 a 10 e un avverbio . Ogni frase segue questo modello e l’elevata precisione dell’IA potrebbe quindi derivare dal fatto che è stata addestrata e testata in condizioni straordinarie, mentre se venisse richiesto di leggere le labbra da un video preso a caso da YouTube probabilmente i risultati sarebbero molto meno precisi.
Secondo Jack Clark di OpenAI per riuscire a far sì che questo sistema possa operare nel mondo reale si dovranno ottenere tre importanti miglioramenti: riuscire a operare con video in cui sono presenti grandi quantità di persone che parlano in contesti reali, ottenere che l’AI sia in grado di leggere le labbra da più angolazioni, variare i tipi di frasi che l’intelligenza artificiale è in grado di prevedere.
Lo stesso Clark afferma che “la tecnologia ha un’utilità talmente evidente che sembra inevitabile che debba essere costruita. Insegnare all’IA a leggere le labbra è una competenza di base che può essere applicata a innumerevoli situazioni. Un sistema simile potrebbe essere impiegato per aiutare i non udenti a capire le conversazioni che avvengono intorno a loro o per aumentare altre forme di intelligenza artificiale in modo da ascoltare audio e video generando rapidamente didascalie accurate”.
Luca Algieri