Google ha lanciato Gemini Live durante l’evento Made by Google di martedì. La funzione consente agli utenti di avere conversazioni parlate semi-naturali con un chatbot AI alimentato dall’ultimo modello di linguaggio di grandi dimensioni di Google.
La risposta di Google a OpenAI
Gemini Live arriva come risposta alla modalità vocale avanzata di ChatGPT (che dà risposte audio iper-realistiche di GPT-4o) una funzione simile attualmente in fase di test alfa, disponibile per un ristretto gruppo di abbonati a ChatGPT Plus. Sebbene OpenAI abbia presentato per primo la demo della funzione, Google ha battuto sul tempo il suo rivale, lanciando ufficialmente Gemini Live e rendendola disponibile al pubblico.
Gemini Live, per un’esperienza conversazionale naturale
Coloro che hanno avuto l’opportunità di provare l’assistente vocale AI di Google affermano che le funzionalità di conversazione in tempo reale sono molto più naturali rispetto alla chat testuale con ChatGPT o alle interazioni con assistenti vocali come Siri e Alexa.
Grazie alla bassa latenza, Gemini Live è in grado di rispondere alle domande in meno di due secondi, seguendo il flusso naturale della conversazione. L’assistente riesce anche a passare rapidamente da un argomento all’altro quando viene interrotto o gli si cambia discorso.
In sostanza, le capacità conversazionali in tempo reale di Gemini Live rendono l’interazione vocale più simile a una normale conversazione umana rispetto ad altri chatbot o assistenti vocali presenti sul mercato. Questo lo rende il modo migliore, ad oggi, di comunicare a mani libere con il proprio smartphone secondo chi lo ha provato, nonostante Gemini Live non sia ancora perfetto e presenti ancora margini di miglioramento.
Personalizzazione vocale
Una delle caratteristiche distintive di Gemini Live è la possibilità di scegliere tra 10 voci diverse, un’opzione significativamente più ampia rispetto alle sole quattro voci offerte da OpenAI. Google ha collaborato con degli attori per creare ciascuna voce, garantendo un suono molto simile a quello umano e offrendo agli utenti una maggiore varietà di personalizzazione.
Compiti complessi e allucinazioni occasionali
Durante una dimostrazione, Gemini Live è stato in grado di gestire una richiesta complessa, come trovare cantine per famiglie con aree all’aperto e parchi giochi nelle vicinanze. Tuttavia, l’AI ha mostrato alcune imperfezioni, facendo riferimento a un parco giochi inesistente nelle vicinanze. Nonostante queste occasionali “allucinazioni“, Gemini Live si è dimostrato in grado di affrontare compiti molto più complicati rispetto a quelli che si potrebbero chiedere a Siri o a Google Search.
Google ha voluto dimostrare come gli utenti possano interrompere Gemini Live a metà frase, consentendo loro di controllare la conversazione. Tuttavia, questa funzione non sempre funziona perfettamente, con occasionali sovrapposizioni di voci tra l’utente e l’AI. Inoltre, Google ha imposto alcune limitazioni a Gemini Live, impedendogli di cantare o imitare voci diverse dalle 10 fornite, probabilmente per evitare problemi di copyright.
Google punta a integrare la comprensione dei video in tempo reale
Sebbene attualmente sia limitato alle conversazioni vocali, Google ha in programma di aggiungere in futuro la comprensione dei video in tempo reale. Questa funzione si inserisce nel contesto più ampio del Project Astra, l’assistente AI universale, completamente multimodale che Google ha presentato durante il Google I/O.