Gli strumenti text-to-video come Sora consentono di generare video partendo semplicemente da un input testuale. Sono utili per creare contenuti multimediali in modo rapido ed efficace. Tuttavia, Sora non è ancora disponibile al pubblico. Prima di renderlo accessibile agli utenti, OpenAI sta adottando misure rigorose per garantire un utilizzo sicuro e responsabile. L’azienda, infatti, vuole prevenire potenziali abusi, assicurandosi che la piattaforma non venga utilizzata per generare contenuti falsi, ingannevoli o dannosi.
Fortunatamente, i tool text-to-video attualmente disponibili offrono funzionalità interessanti per esplorare le potenzialità di questa tecnologia prima dell’arrivo di Sora.
6 alternative text-to-video da provare gratis
Ci sono diversi strumenti gratuiti che permettono di testare la creazione di contenuti multimediali partendo da un prompt di testo. Quindi, in attesa di Sora, è possibile farsi un’idea di come il text-to-video possa essere utilizzato per i propri progetti, testando soluzioni alternative.
1. Gen-2 di Runway
Gratuito: 125 crediti
Standard: 15 dollari al mese (12 dollari con pagamento annuale) per 625 crediti mensili
Gen-2 di Runway, come Sora, utilizza un sistema di intelligenza artificiale multimodale all’avanguardia per generare videoclip da prompt testuali. Permette di caricare immagini e video di riferimento per generare i nuovi contenuti multimediali. Questa funzionalità fa presagire che in futuro anche Sora di OpenAI potrebbe offrire la possibilità di inserire materiale di partenza su cui basare la generazione di video. Al momento non è ancora chiaro se OpenAI prevede di integrare in Sora la capacità di utilizzare immagini e clip come input, ma è plausibile che una funzionalità di questo tipo possa essere aggiunta in futuro.
Riguardo alla qualità dei video generati da Sora e condivisi da OpenAI, è chiaro come al momento Sora sia superiore a Gen-2 nella generazione di contenuti multimediali da testo. Tuttavia, considerando la rapida evoluzione dell’AI e il vantaggio temporale di Runway, è probabile che Sora e le future versioni di Gen-2 si contenderanno a lungo il primato di miglior generatore AI text-to-video.
2. Pika
Gratuito: 250 crediti iniziali (30 crediti gratuiti al giorno dopo aver esaurito i crediti iniziali)
Standard: 10 dollari al mese (8 dollari se pagato annualmente) per 700 crediti mensili
Pika è un altro generatore AI di video in grado di creare contenuti 3D partendo da testo e immagini. È disponibile sia tramite applicazione web che su Discord, ma la qualità dell’output e le funzionalità variano a seconda della piattaforma scelta.
L’app web offre più opzioni di modifica dei video generati, come intervenire su aree specifiche, espandere il canvas ed aggiungere il lip sync. Queste funzioni avanzate non sono presenti sulla versione Discord. Vale quindi la pena provare entrambe le versioni per stabilire quale dia i migliori risultati per i propri scopi.
Facendo un confronto diretto con lo stesso prompt del famoso video “Lady Walking in Tokyo” creato da Sora, sia l’app che Discord mostrano ancora limiti qualitativi rispetto all’output di Sora. Tuttavia, caratteristiche uniche di Pika come il lip sync e l’animazione di immagini lo rendono complementare a Sora, almeno per il momento. Con il rapido progresso dell’AI, sarà interessante vedere come Pika migliorerà e si confronterà con Sora in futuro.
3. Pixverse
Gratuito
Pixverse è un’altra alternativa a Sora di OpenAI in grado di generare video realistici a partire da prompt testuali. Come Pika, mette a disposizione due piattaforme per la creazione di contenuti: il sito web e il server Discord. Il sito web di Pixverse offre un flusso di lavoro video più completo, dove è possibile creare, visualizzare, filtrare e modificare i video generati.
Nonostante sia sempre possibile rigenerare per ottenere risultati migliori (il servizio è gratuito!), la versione Discord permette di generare 4 clip contemporaneamente, dando la possibilità di scegliere il risultato migliore senza dover rigenerare più volte.
È possibile unirsi al server Discord di Pixverse e generare video utilizzando il comando /create. Si può anche selezionare il rapporto d’aspetto e il prompt negativo, se necessario. Dal punto di vista qualitativo, Pixverse si posiziona allo stesso livello di Pika, e un gradino al di sotto di Sora.
4. Kaiber
Gratuito: 100 crediti iniziali
Explorer: 5 dollari al mese per 300 crediti.
Kaiber è uno strumento di intelligenza artificiale per la generazione di video, con un focus specifico su contenuti artistici. Permette di creare clip video partendo da immagini o descrizioni testuali fornite dall’utente.
Questo software offre anche la funzionalità di “reattività audio“: è possibile caricare una traccia audio e far sì che l’intelligenza artificiale generi automaticamente un video che si adatta al ritmo e al mood della musica. L’utente può personalizzare parametri come la durata del video, le dimensioni, i movimenti di camera e l’inquadratura iniziale. Kaiber è fruibile sia tramite interfaccia web che app per dispositivi mobili.
La caratteristica più interessante è la capacità di produrre video reattivi al contenuto audio fornito come input. L’attenzione al mondo artistico lo rende potenzialmente competitivo con Sora di OpenAI. Tuttavia, per quanto riguarda il realismo dei video generati, Sora sembra attualmente mantenere un vantaggio rispetto a Kaiber.
5. Synthesia
Gratuito: video di prova
Starter: 29 dollari al mese (22 dollari con fatturazione annuale) per 10 minuti di video.
Synthesia è un software di sintesi vocale che consente di generare video realistici di persone che parlano partendo da un input testuale. Gli utenti possono scegliere tra diversi avatar 3D, sfondi ed effetti per personalizzare i video. Uno dei vantaggi principali di Synthesia è la varietà di voci e lingue supportate, che permette di creare video parlanti in modo naturale in molte lingue.
A differenza di Sora, che genera immagini e video completamente dal testo utilizzando l’intelligenza artificiale, Synthesia si basa su filmati preregistrati di attori reali. I video generati vengono ritagliati e montati insieme per adattarsi al testo inserito, mantenendo una qualità più naturale e umana rispetto a Sora.
Mentre Sora può potenzialmente creare qualsiasi scena immaginabile partendo da zero, Synthesia è limitato a generare video di persone che parlano direttamente in camera. Ciò lo rende più adatto per video esplicativi, presentazioni o contenuti educativi. Sora offre invece maggiore flessibilità creativa.
Perciò Synthesia è uno strumento efficace per creare facilmente video coinvolgenti con narratori realistici, mentre Sora permette una generazione di contenuti più creativa ma meno naturale. Entrambi hanno i loro punti di forza a seconda dell’utilizzo desiderato.
6. Vidnoz
Gratuito: 1 minuto/giorno
Starter: 19,99 dollari (14,99 dollari con fatturazione annuale) per 10 minuti di video senza watermark
Vidnoz è un’altra piattaforma di sintesi video AI che permette di generare filmati realistici di persone che parlano a partire da input di testo. Come Synthesia, Vidnoz utilizza tecniche di elaborazione del linguaggio naturale e computer vision per sincronizzare labbra e espressioni facciali degli avatar col testo inserito.
Rispetto a Synthesia, Vidnoz offre una maggiore personalizzazione nella creazione dei personaggi. È possibile modificare dettagli del volto, acconciatura, abbigliamento e accessori per creare avatar unici e distintivi. Inoltre, Vidnoz permette di scegliere tra voci maschili e femminili per ogni personaggio, dando più controllo all’utente.
La corsa ai generatori video AI
La competizione in questo settore è sempre più agguerrita ed è probabile che vedremo presto l’emergenza di altre piattaforme di generazione video AI simili a queste. Ad esempio, Google sta lavorando a Project Lumiere, e Meta sta sviluppando Make-A-Video.