Synthesia, la startup con sede a Londra, ha aggiornato la sua piattaforma con il lancio degli “avatar espressivi“, consentendo alle aziende di creare video AI professionali con una maggiore naturalezza e realismo.
A differenza dei normali avatar digitali, gli avatar espressivi sono in grado di regolare il tono, le espressioni facciali e il linguaggio del corpo in base al contesto del contenuto che trasmettono. Questa innovazione arriva solo una settimana dopo che Microsoft ha presentato VASA-1, un framework di intelligenza artificiale che anima le foto e le fa parlare in modo realistico, con tanto di movimenti della testa e sincronizzazione labiale.
Tuttavia, mentre VASA-1 è ancora in fase di sviluppo, la tecnologia alla base degli avatar espressivi di Synthesia è già operativa e pronta per aiutare i clienti a creare video AI più realistici che mai per il loro pubblico di riferimento.
Gli avatar espressivi di Synthesia
Fondata nel 2017 da un team di ricercatori e imprenditori nel settore dell’AI provenienti da prestigiose università come Stanford e Cambridge, Synthesia ha costruito una piattaforma completa per la creazione di voci e avatar AI personalizzati. Gli utenti possono utilizzare avatar esistenti o crearne di propri, combinandoli con script pre-scritti o generati dall’intelligenza artificiale per produrre video di alta qualità.
L’offerta di Synthesia ha riscosso un notevole successo, con oltre 200.000 persone che hanno utilizzato gli avatar digitali per creare più di 18 milioni di video. Tuttavia, fino ad ora, gli avatar digitali presentavano una significativa lacuna: la mancanza di comprensione del sentiment.
I nuovi avatar AI invece, sono in grado di comprendere il contesto e il sentimento trasmessi in un testo, adattando di conseguenza il tono e le espressioni. Sono già in grado di mostrare una gamma di emozioni attraverso sottili aggiustamenti nelle espressioni, negli ammiccamenti e persino nello sguardo.
Come funzionano gli avatar espressivi
Per raggiungere questo livello di previsione del sentiment e realismo, Synthesia utilizza EXPRESS-1, un modello di deep learning addestrato con diverse ore di testo e video che mostrano come quel testo viene pronunciato nel mondo reale.
EXPRESS-1 è in grado di predire ogni movimento ed espressione facciale in tempo reale, allineandosi perfettamente con i tempi, le intonazioni e l’enfasi del linguaggio parlato. Inoltre, i nuovi avatar offrono una sincronizzazione labiale e voci più naturali in diverse lingue.
Synthesia punta sulla sicurezza
Mentre gli avatar digitali con capacità espressive simili agli esseri umani possono essere soggetti ad abusi e inganni, Synthesia si sta impegnando per garantire casi d’uso positivi rivolti soprattutto alle imprese.
Le aziende sanitarie, ad esempio, potrebbero utilizzare questa tecnologia per creare video più empatici per i pazienti, mentre i team di marketing potrebbero sfruttarla per trasmettere entusiasmo e ottimismo nei video di presentazione di nuovi prodotti.
Per garantire la sicurezza, Synthesia ha aggiornato le politiche di utilizzo, limitando i contenuti che gli utenti aziendali possono creare sulla piattaforma, e sta investendo nell’individuazione precoce degli utenti malintenzionati e nelle tecnologie di accreditamento dei contenuti.