A poche ore dall’inizio del Google I/O 2024 (alle 19:00 ora italiana), Google ha mostrato un nuovo prototipo di Gemini in azione, che sembra utilizzare video dal vivo e messaggi vocali. Questa demo rappresenta un passo avanti rispetto ai chatbot AI tradizionali, che finora si sono concentrati principalmente su messaggi di testo e immagini.
Gemini sa interagire con video live
In una nuova demo realizzata probabilmente durante i preparativi del Google I/O, il chatbot Gemini viene mostrato in azione su uno smartphone Pixel. Nella clip, Gemini utilizza sia video dal vivo che messaggi vocali per rispondere alle domande poste.
Quando gli viene chiesto “Cosa pensi stia succedendo qui?“, il chatbot analizza correttamente il video che mostra un palco in fase di allestimento, riconoscendo che si tratta della preparazione di un grande evento. La conversazione prosegue in modo naturale, con Gemini che risponde alle domande successive, identificando le lettere sullo schermo come riferimento al Google I/O e offrendo una breve descrizione dell’evento.
La demo mette in luce le capacità di Gemini nel combinare informazioni provenienti da modalità diverse – video, audio e testo – per comprendere il contesto e fornire risposte pertinenti. Rispetto ai chatbot precedenti quindi, sembra compiere passi avanti significativi nell’integrazione di input multimodali.
One more day until #GoogleIO! We’re feeling 🤩. See you tomorrow for the latest news about AI, Search and more. pic.twitter.com/QiS1G8GBf9
— Google (@Google) May 13, 2024
Google sfida OpenAI
La demo nel suo complesso risulta piuttosto impressionante, non solo per l’uso multimodale di voce e video nelle richieste, ma anche per la naturalezza con cui la conversazione viene portata avanti. Tuttavia, è importante notare che Google ha mostrato in precedenza una demo di Gemini molto simile a livello di conversazione, che si è poi rivelata un po’ troppo bella per essere vera.
Non è chiaro se lo stesso valga per questa nuova demo, ma l’interfaccia utente mostrata sullo schermo indica chiaramente che si sta utilizzando un video e Google afferma che si tratta di un “prototipo”.
Il tempismo del rilascio di questo teaser non è casuale: il video è stato caricato su X meno di un’ora prima di un evento OpenAI, in cui ChatGPT, con GPT-4o, ha ottenuto la stessa funzionalità presentata da Google, il tutto gratuitamente. Questo mostra come Google stia cercando di mantenere la propria posizione di leader nel campo dell’intelligenza artificiale, anticipando le mosse dei suoi concorrenti.