DeepMind, il laboratorio di ricerca sull’AI di Google, ha annunciato di essere al lavoro su una tecnologia innovativa denominata V2A (acronimo di “video-to-audio”). Questa soluzione mira a colmare una lacuna cruciale nei media generati dall’AI, consentendo la creazione di colonne sonore sincronizzate con i video generati.
Come sottolineato DeepMind, gli strumenti di intelligenza artificiale per generare video stanno facendo progressi enormi negli ultimi tempi, ma la maggior parte di questi modelli è in grado di produrre solo immagini in movimento, senza audio. Mancano quindi colonne sonore e effetti sonori sincronizzati con l’azione nei video creati dall’AI.
La nuova tecnologia V2A sviluppata da DeepMind punta a risolvere questa lacuna, generando automaticamente musica e suoni adatti a accompagnare i video generati dall’intelligenza artificiale. Secondo DeepMind, V2A potrebbe diventare un approccio molto promettente per rendere i video AI più realistici e coinvolgenti.
Un’esperienza audiovisiva completa e sincronizzata
La tecnologia V2A di DeepMind utilizza una descrizione testuale della colonna sonora desiderata (ad esempio, “meduse che pulsano sott’acqua, vita marina, oceano“) abbinata a un video per generare musica, effetti sonori e persino dialoghi che corrispondono ai personaggi e al tono del video. Tutto questo è reso possibile dal modello di diffusione sottostante, addestrato su una combinazione di suoni, trascrizioni di dialoghi e clip video.
V2A è stata addestrata utilizzando sia video che audio e informazioni aggiuntive di contesto (annotazioni). In questo modo, l’intelligenza artificiale ha “imparato” a capire quali suoni e musiche si addicono alle diverse scene visive. Ad esempio, se in un video c’è una scena di una persona che cammina, l’AI capisce dalle annotazioni che il suono adatto è quello dei passi.
Oppure, se in una scena ci sono persone che parlano, l’AI associa l’audio delle voci umane. Quindi, quando deve generare la colonna sonora per un nuovo video creato dall’AI, V2A è in grado di analizzare le immagini e sincronizzare automaticamente i suoni appropriati, anche senza ricevere una descrizione testuale della scena.
DeepMind prudente su V2A
Nonostante le potenzialità di V2A nel generare colonne sonore per i video AI, DeepMind ammette che ci sono ancora margini di miglioramento. Ad esempio, la qualità dell’audio generato per video distorti o con artefatti non è ancora ottimale, perché il modello non è stato addestrato a sufficienza su questo tipo di contenuti.
Inoltre, DeepMind afferma che non renderà disponibile V2A al pubblico nell’immediato, prima di aver condotto valutazioni rigorose sull’impatto e la sicurezza della tecnologia. C’è infatti il rischio che V2A possa sconvolgere le industrie creative come cinema e TV, sostituendo il lavoro umano di professionisti come compositori e sound designer. Saranno necessarie forti tutele del lavoro per evitare che gli strumenti AI eliminino posti di lavoro in questi settori.