Google ha presentato Imagen 2, la nuova versione avanzata del suo generatore di immagini AI all’interno della sua piattaforma per sviluppatori Vertex AI. Il lancio è avvenuto nel corso della conferenza Cloud Next 2024 che si è tenuta a Las Vegas.
Imagen 2 – che in realtà è una famiglia di modelli, lanciata a dicembre dopo essere stata presentata in anteprima alla conferenza I/O di Google nel maggio 2023 – è in grado di creare e modificare immagini con una richiesta di testo, proprio come come DALL-E di OpenAI e Midjourney. Una delle caratteristiche più interessanti per le aziende è la capacità di Imagen 2 di renderizzare testi, emblemi e loghi in più lingue, sovrapponendoli facoltativamente a immagini esistenti, come biglietti da visita, abbigliamento e prodotti.
Nuove funzionalità: inpainting, outpainting e immagini text-to-live
Dopo il lancio in anteprima, Imagen 2 è ora disponibile in Vertex AI insieme a due nuove funzionalità: inpainting e outpainting. Queste funzioni, già offerte da tempo da altri generatori di immagini popolari, consentono di rimuovere parti indesiderate di un’immagine, aggiungere nuovi componenti ed espandere i bordi per creare un campo visivo più ampio.
La vera novità di Imagen 2, però, sono le “immagini text-to-live“. Questa funzionalità permette di creare brevi video di quattro secondi a partire da richieste di testo, sulla falsariga di altri strumenti di generazione di clip basati sull’intelligenza artificiale.
Google propone le immagini dal vivo come strumento per i marketer e i creativi, ad esempio come generatore di GIF per annunci pubblicitari che mostrano la natura, il cibo e gli animali, argomenti su cui Imagen 2 è stato messo a punto. Tuttavia, al momento, le immagini dal vivo sono a bassa risoluzione (360 pixel per 640 pixel), ma Google si impegna a migliorare la situazione in futuro.
Preoccupazioni riguardo ai deepfake e alla proprietà intellettuale
Per dissipare le preoccupazioni relative al potenziale di creazione di deepfake, Google afferma che Imagen 2 utilizzerà SynthID, un approccio sviluppato da Google DeepMind, per applicare watermark crittografici invisibili alle immagini dal vivo. Inoltre, le generazioni di immagini live saranno “filtrate per sicurezza”.
Tuttavia, le immagini text-to-live non sono coperte dalla polizza di indennizzo di Google per l’IA generativa, che protegge i clienti di Vertex AI dalle richieste di risarcimento del copyright relative all’uso da parte di Google dei dati di addestramento e dei risultati dei suoi modelli di AI generativa. Questo perché le immagini text-to-live sono tecnicamente in anteprima e la polizza copre solo i prodotti di AI generativa in disponibilità generale.
Sfide e confronto con la concorrenza
Nonostante i progressi di Imagen 2, altri strumenti di generazione video già esistenti, come Runway e Stable Video Diffusion, offrono caratteristiche più avanzate in termini di risoluzione, durata dei video e personalizzazione. Inoltre, Sora di OpenAI, non ancora disponibile in commercio, sembra destinato a sbaragliare la concorrenza con il fotorealismo che può raggiungere.
Infine, rimangono alcune incognite riguardo ai dati di addestramento utilizzati da Google per Imagen 2, e il problema del rigurgito, ovvero la produzione di copie speculari di esempi su cui il modello è stato addestrato, rappresenta una preoccupazione per i clienti aziendali.