EMO di Alibaba genera video realistici dalle foto ritratto

EMO di Alibaba genera video realistici dalle foto ritratto

I ricercatori di Alibaba hanno lanciato EMO, un sistema di AI che anima le foto ritratto, generando video realistici della persona che canta o parla.
EMO di Alibaba genera video realistici dalle foto ritratto
I ricercatori di Alibaba hanno lanciato EMO, un sistema di AI che anima le foto ritratto, generando video realistici della persona che canta o parla.

Un team di ricercatori dell’Alibaba’s Institute for Intelligent Computing ha creato un sistema di intelligenza artificiale capace di dare vita a una foto ritratto e di generare video incredibilmente realistici della persona che parla o canta. Il sistema si chiama EMO, acronimo di Emote Portrait Alive, ed è stato presentato in un documento di ricerca pubblicato su arXiv.

Come funziona EMO

EMO utilizza una tecnica di intelligenza artificiale chiamata modello di diffusione, che permette di creare immagini AI di alta qualità. Il sistema è stato addestrato su un set di dati di oltre 250 ore di video di teste parlanti, provenienti da diverse fonti, come discorsi, film, spettacoli televisivi e performance canore.

EMO è in grado di trasformare una forma d’onda audio in una sequenza di fotogrammi video, senza bisogno di modelli 3D intermedi o di punti di riferimento facciali. In questo modo, il sistema riesce a riprodurre i movimenti facciali e le pose della testa in modo fluido ed espressivo, rispettando le caratteristiche e lo stile del parlato naturale.

Quali sono i risultati

I video generati da EMO sono risultati superiori, sia per qualità che per espressività, rispetto a quelli prodotti dai precedenti metodi di generazione di volti parlanti a partire da audio. EMO è infatti in grado di conservare meglio l’identità e le caratteristiche reali della persona ritratta. Inoltre, test condotti su utenti in carne e ossa hanno confermato che i video generati da questo sistema AI appaiono più naturali ed emozionali rispetto a quelli di altri modelli.

EMO non solo può animare i ritratti di persone che parlano, ma anche di persone che cantano, sincronizzando la forma della bocca e le espressioni facciali con la voce. Il sistema può generare video di qualsiasi durata, a seconda della lunghezza dell’audio in ingresso.

Le implicazioni di EMO

EMO di Alibaba consente di generare in modo estremamente realistico video personalizzati di persone ritratte in foto, semplicemente fornendo un clip audio. Questa tecnologia AI apre interessanti possibilità applicative nei campi dell’intrattenimento, educazione, comunicazione e marketing. Tuttavia, vi sono anche preoccupazioni etiche legate al potenziale impiego improprio. I ricercatori stanno quindi esplorando soluzioni per rilevare i contenuti AI prodotti da EMO, al fine di prevenire utilizzi dannosi.

Sarà cruciale trovare il giusto equilibrio tra le opportunità offerte da questo sistema all’avanguardia e la necessità di evitarne gli abusi, nel rispetto della privacy e dell’identità personale.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
29 feb 2024
Link copiato negli appunti