Stability IA ha annunciato Stable Video Diffusion, un modello image-to-video che permette di generare un video a partire da un’immagine esistente. È in pratica un’estensione di Stable Diffusion, il noto modello text-to-image. Non è tuttavia accessibile a tutti (per il momento), ma è solo disponibile per scopi di ricerca.
Video fino a 30 fps
Stable Diffusion è uno dei modelli text-to-image più popolari e concorrente di DALL-E (OpenAI), Midjourney e Firefly (Adobe). Rispetto a questi ultimi offre due principali vantaggi. Può funzionare su qualsiasi computer moderno (quindi senza cloud) e il codice sorgente è open source. Le stesse caratteristiche sono state estese a Stable Video Diffusion.
Il nuovo modello image-to-video può essere sfruttato per animare le immagini create con il modello text-to-image. Sono disponibili due versioni. SVD è addestrato per generare un video formato da 14 fotogrammi alla risoluzione di 576×1024 pixel. SVD-XT genera video alla stessa risoluzione, ma formato da 25 fotogrammi. I video finali possono avere una velocità tra 3 e 30 fps (lunghezza massima è di 4 secondi).
Stability IA sottolinea che i due modelli devono essere utilizzati esclusivamente a scopo di ricerca, non per applicazioni commerciali. Il codice sorgente è stato pubblicato su GitHub. I modelli non possono essere usati per generare testo, facce e persone.
Stable Video Diffusion potrebbe essere sfruttato per applicazioni nei settori advertising, istruzione e intrattenimento (se e quando verrà rilasciata una versione commerciale). In futuro saranno disponibili altri modelli image-to-video e un’interfaccia web per un tool text-to-video. Chi è interessato può effettuare l’iscrizione alla waitlist.