I ricercatori di Google hanno creato un sistema rivoluzionario di intelligenza artificiale chiamato VLOGGER. Questa tecnologia all’avanguardia è in grado di generare video realistici e coinvolgenti di persone che parlano, gesticolano e si muovono, partendo da una singola foto.
Come Funziona VLOGGER?
VLOGGER utilizza modelli avanzati di apprendimento automatico per generare filmati sorprendentemente realistici. Il processo richiede solo due input: una foto della persona interessata e una clip audio contenente la registrazione vocale desiderata. La tecnologia elabora queste informazioni per produrre un video coerente con l’audio, mostrando la persona mentre pronuncia le parole corrispondenti e compie espressioni facciali, movimenti della testa e gesti delle mani appropriati.
Nonostante alcuni artefatti visibili nei video generati, i ricercatori, guidati da Enric Corona di Google Research, affermano che questi rappresentano un salto significativo nella capacità dell’AI di animare immagini fisse.
Il segreto del successo di VLOGGER sta nell’utilizzo dei modelli di diffusione (finora utilizzati per generare immagini realistiche) per ottenere risultati innovativi nel campo dei video. I modelli sono stati addestrati su MENTOR – un enorme set di dati contenente oltre 800.000 identità diverse e 2.200 ore di video. Questo ha permesso a VLOGGER di imparare a generare video di persone con etnie, età, abbigliamento, pose e ambienti diversi senza pregiudizi.
Le potenziali applicazioni di VLOGGER
Questa tecnologia apre una serie di casi d’uso interessanti, come:
- Doppiaggio automatico: i film possono essere doppiati in altre lingue semplicemente cambiando la traccia audio.
- Modifica video: i fotogrammi mancanti possono essere aggiunti senza soluzione di continuità.
- Avatar fotorealistici: gli attori potrebbero concedere in licenze i loro modelli 3D dettagliati per creare nuove performance o avatar virtualmente convincenti.
- Assistenti virtuali interattivi: chatbot più coinvolgenti ed espressivi in grado di interagire con gli esseri umani in modo naturale attraverso la parola, i gesti e il contatto visivo, potrebbero sostituire quelli tradizionalmente basati sul testo.
Nonostante i limiti attuali, come la breve durata dei video generati e lo sfondo statico, VLOGGER rappresenta un significativo passo avanti nella ricerca sull’AI.
Le sfide da affrontare: deepfake e disinformazione
Tuttavia, questa tecnologia presenta anche sfide etiche. La capacità di creare video generati dall’AI così realistici solleva preoccupazioni riguardo al potenziale uso improprio di questa tecnologia, ad esempio nella creazione di deepfake sempre più sofisticati e nella diffusione di disinformazione.
Man mano che questi video sono sempre più realistici e facili da creare, diventa cruciale sviluppare metodi per distinguere ciò che è reale da ciò che è falso e affrontare le insidie legate alla falsificazione digitale.