OpenAI ha presentato il suo nuovo modello di generazione video, chiamato Sora. È in grado di creare video fotorealistici a partire da semplici istruzioni testuali. Gli utenti possono scrivere una descrizione di ciò che vogliono vedere nel video, e Sora lo genera in meno di un minuto.
Le caratteristiche del nuovo modello text-to-video di OpenAI
Sora è in grado di gestire scene complesse, con più personaggi, movimenti specifici e dettagli accurati. Il modello può anche capire la fisica degli oggetti, e generare personaggi espressivi e realistici. Inoltre, può usare un’immagine fissa come punto di partenza per creare un video, o modificare un video esistente aggiungendo o rimuovendo fotogrammi.
OpenAI ha mostrato alcune demo di Sora nel suo blog post. Tra queste, ci sono una scena della California durante la corsa all’oro, un video girato da un treno di Tokyo e altri. Le demo mostrano la qualità e la varietà dei video generati dal modello text-to-video, ma anche i suoi limiti. Alcuni filmati, infatti, presentano artefatti o incongruenze dovuti alla difficoltà di simulare la fisica di una scena complessa.
Sora si inserisce in un panorama di modelli text-to-video in rapida evoluzione. Fino a poco tempo fa, i modelli text-to-image come Midjourney erano considerati all’avanguardia nella capacità di trasformare le parole in immagini. Ora, però, il video sta diventando sempre più realistico e versatile. Aziende come Runway e Pika hanno sviluppato modelli text-to-video impressionanti, e Google ha lanciato Lumiere, un modello simile a Sora che offre agli utenti strumenti di text-to-video.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Le sfide di Sora
Sora non è ancora disponibile per il pubblico. OpenAI lo sta testando con alcuni “red teamer”, che valutano il modello per individuare potenziali rischi. L’azienda sta anche collaborando con alcuni artisti, designer e registi per ottenere un feedback. OpenAI riconosce che il modello ha ancora dei margini di miglioramento, e che potrebbe non simulare accuratamente la fisica di una scena complessa o non interpretare correttamente alcuni casi di causa ed effetto.
Sora, come gli altri prodotti di intelligenza artificiale, dovrà affrontare le sfide etiche e sociali legate alla generazione di video fotorealistici fake. OpenAI ha annunciato di aver aggiunto delle filigrane al suo strumento text-to-image DALL-E 3, ma ha ammesso che possono essere facilmente rimosse. L’azienda si impegna a promuovere un uso responsabile e sicuro dei suoi modelli, e a monitorare gli impatti di Sora sulla società.