Pika, una delle principali piattaforme di video AI, ha lanciato una nuova funzione che permette di creare personaggi parlanti nei video generati dall’intelligenza artificiale. Si chiama Lip Sync ed è frutto della collaborazione con ElevenLabs, specializzata nella generazione vocale AI.
Lip Sync consente di sincronizzare i movimenti labiali dei personaggi con il suono, sia che si tratti di un testo convertito in audio dalla stessa piattaforma, sia che si tratti di un file audio caricato dall’utente. In questo modo, è possibile dare vita a video generati dall’AI, senza dover ricorrere a attori reali o a voci fuori campo.
Lip Sync rappresenta un passo avanti significativo nel campo dei video AI, che è ancora agli albori. Se funzionerà bene e se risolverà i problemi iniziali, potrebbe essere una svolta paragonabile al lancio di Sora, la piattaforma video AI di OpenAI.
We know there’s been a lot of talk about AI generated video recently. Well, look who’s talking now!
Early Access to Lip Sync is available for Pro users now at https://t.co/nqzjGy82Lx. pic.twitter.com/vCJ88pUWLL
— Pika (@pika_labs) February 27, 2024
Come funziona Lip Sync di Pika
Fino a ora, la maggior parte dei video generati dall’IA erano semplici filmati che mostravano scene, persone o situazioni, senza alcuna interattività. I personaggi non parlavano alla telecamera o tra di loro, limitando le possibilità narrative e creative.
Con Lip Sync, invece, i personaggi possono comunicare con il pubblico o con altri personaggi, rendendo i video più realistici e coinvolgenti. Basta scegliere il personaggio, il testo o l’audio da associare e la piattaforma si occupa di generare il video con la sincronizzazione labiale. Tutti gli utenti che hanno sottoscritto il piano Pro o superiore può testare la nuova funzionalità.
Va detto che Lip Sync non è l’unica funzione di questo tipo sul mercato. Esistono altri strumenti, come Synthesia, che offrono la possibilità di creare video con personaggi parlanti, ma si focalizzano più sul settore aziendale e generano solo teste parlanti, non personaggi interi.
Perché la sincronizzazione labiale nei video di intelligenza artificiale è una sfida?
Pika Labs e Runway sono state le due piattaforme leader per i video generativi AI negli ultimi mesi. Runway aveva già introdotto il suo servizio di voice-over sintetico lo scorso anno, ma non era sincronizzato con i video. Ora la competizione si fa più serrata, con molti altri attori che stanno entrando nel campo del video generativo e con OpenAI che ha presentato la sua impressionante piattaforma video Sora AI.
Anche altre piattaforme stanno aggiornando le loro funzionalità, come StabilityAI con la sua nuova versione di Stable Video Diffusion e Leonardo con la sua offerta di movimento per qualsiasi immagine generata dall’IA. Google ha Lumiere e Meta ha Emu, mettendo pressione ai pionieri per innovare prima che gli altri li raggiungano.
Cosa ci aspetta in futuro?
Finora abbiamo assistito a una frammentazione dell’AI generativa. Ci sono strumenti che creano immagini, strumenti che creano video, servizi per scrivere sceneggiature e altri per aggiungere il suono. Il futuro potrebbe portare a una maggiore integrazione, con l’emergere di piattaforme che offrono una produzione end-to-end a partire da una semplice richiesta di testo.
ElevenLabs sta anche lavorando a una libreria di effetti sonori e, insieme a Suno, potremmo presto assistere alla nascita di una piattaforma unica in cui si possa dire “prendi questa sceneggiatura scritta da ChatGPT e trasformala in un cortometraggio”. In pochi minuti, si potrebbe avere una timeline con una serie di video, dialoghi tra personaggi che usano le voci sintetiche di ElevenLabs ed effetti sonori e musicali adeguati che rendono la produzione viva e dinamica.