Meta ha annunciato Movie Gen, un modello text-to-video che permette di generare video lunghi fino a 16 secondi. Consente anche di utilizzare un’immagine come input e modificare un video esistente. È possibile inoltre aggiungere una traccia audio, sfruttando un altro modello di intelligenza artificiale generativa. Non è ancora pronto per la distribuzione pubblica, ma in futuro potrebbe essere usato nei Reels.
Generatore IA di video e audio
Movie Gen è la risposta di Meta a OpenAI Sora, Google Veo e Runway Gen-3 Alpha. In base ad una valutazione umana delle quattro capacità (generazione video, generazione video personalizzato, editing video e generazione audio), il modello dell’azienda di Menlo Park è stato preferito a quelli di Google e OpenAI.
Meta scrive che il modello è stata addestrato su una combinazione di dataset pubblici e con licenza, ma non specifica quali. A partire dalla descrizione testuale, il modello da 30 miliardi di parametri può generare un video lungo 16 secondi a 16 fps o 10 secondi a 24 fps. La risoluzione massima è 1080p, ottenute tramite upscaling da 768×768 pixel).
Se insieme alla descrizione testuale viene usata una propria immagine come input, Movie Gen genera un video personalizzato. Se invece viene usato un video esistente come input e specificato il risultato finale tramite testo, il modello modifica il video originale.
Infine, un modello da 13 miliardi di parametri consente di generare una traccia audio (musica, effetti sonori e rumori ambientali) a 48 kHz lunga fino a 45 secondi a 48 kHz sincronizzata con il video di input. Meta continuerà a migliorare il modello, ma non è stata confermata una possibile distribuzione pubblica. I rischi associati ad una simile tecnologia non piuttosto elevati. È infatti possibile generare deepfake molto realistici.