Il keynote di apertura dell’evento Google I/O 2024 ha confermato (non che ce ne fosse bisogno) quale sia la priorità assoluta per il gruppo di Mountain View: l’intelligenza artificiale. Ciò che meglio lo riassume e lo sintetizza è il riferimento a ciò che bigG definisce “era Gemini”, una fase nella storia della società in cui l’obiettivo finale dichiarato è quello di rendere l’IA utile per tutti
. Passiamo in rassegna gli annunci più importanti.
Gli annunci più importanti del Google I/O 2024
Potremmo riassumere il tutto con l’integrazione di Gemini, ormai onnipresente, che ora interessa ogni prodotto e servizio con oltre due miliardi di utenti: dal motore di ricerca a Foto, da Workspace ad Android. È al centro della maggior parte delle novità presentate, sviluppate in modo da porre esperienze inedite nelle mani degli utenti.
Gemini nel motore di ricerca…
Partiamo proprio da Ricerca Google. Si registra un’espansione dei riepiloghi generati dall’IA, attraverso un modello Gemini personalizzato, concepito per ragionare in più fasi
, pianificando e impiegando la multimodalità. Il risultato è quello mostrato nel video qui sotto. Per chi naviga, il vantaggio principale è costituito dal poter trovare risposte rapide da consultare direttamente tra le SERP, perfezionandole e ponendo più domande una dopo l’altra. Al debutto subito negli Stati Uniti e nel Regno Unito, arriverà più avanti anche negli altri paesi (fino a raggiungere un miliardo di persone entro fine anno). Da verificare l’impatto sul traffico veicolato verso i siti.
… e in Foto…
Foto accoglie invece la funzionalità Chiedi a Foto. Il nome scelto è già di per sé piuttosto esplicativo per comprendere quale sia la sua utilità: fa leva sulle capacità multimodali di Gemini per cercare i propri contenuti, tra le immagini e i video. Ad esempio, alla richiesta Mostrami le migliori immagini di ogni parco nazionale che ho visitato
, l’applicazione restituisce una galleria pescando direttamente dall’archivio personale.
… nelle app di Workspace…
A proposito di Workspace, le funzionalità già esistenti di Gemini 1.5 Pro saranno disponibili per un maggior numero di utenti, integrate nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli.
L’applicazione mobile di Gmail accoglie caratteristiche IA inedite per riassumere le email e per generare una risposta intelligente contestuale. Ancora, Gemini Q&A, disponibile in Workspace Labs su mobile e Web a partire da luglio, fornirà suggerimenti per l’esecuzione di azioni specifiche.
… e su mobile con Android
In tema Android, il sistema operativo per smartphone e tablet sta per ricevere una massiccia iniezione IA. Non solo Cerchia e Cerca (che abbiamo già visto, di cui beneficeranno tra gli altri gli studenti per i compiti), ma anche un overlay di Gemini per consigli creativi legati a ciò che appare sullo schermo, dalla possibilità di ottenere il riassunto di un documento PDF a informazioni dettagliate su un video riprodotto. Ancora, TalkBack con Gemini offrirà descrizioni ancora più precise per le immagini .
È confermato che, entro la seconda metà dell’anno, i dispositivi Pixel accoglieranno il supporto al modello Gemini Nano per l’elaborazione in locale. Lo stesso vale per il browser Chrome con il passaggio alla versione 126.
Gemini 1.5 Pro e Live per gli abbonati Advanced
Per gli abbonati Advanced (ora disponibile in Italia, a 21,99 euro al mese) arriverà Gemini 1.5 Pro, in più di 35 lingue, oltre a una finestra contestuale da 1 milione di token, la più estesa di tutti i chatbot consumer. Tradotto: sarà in grado di comprendere più informazioni, come nel caso di un PDF da 1.500 pagine e, a breve, 30.000 righe di codice oppure un video dalla durata di un’ora.
Live è certamente uno degli annunci di maggiore impatto. Si tratta di una nuova esperienza di conversazione mobile, che permette di parlare con Gemini scegliendo tra diverse voci dall’audio naturale, facendo domande e persino interrompendo l’interlocutore IA se necessario. È forse la risposta a quanto visto con GPT-4o di OpenAI? Anche in questo caso, si tratta di una novità destinata inizialmente in esclusiva agli abbonati Advanced. Sarà lanciata presto (al momento non è disponibile una tempistica più precisa).
Il modello Flash e Project Astra
Guardando al futuro, bigG è già al lavoro sulla versione Flash del modello Gemini 1.5, come si può intuire pensata per risultare veloce ed efficiente, con latenze più basse.
Project Astra, invece, incarna la visione del gruppo per la prossima generazione di assistenti IA, capaci di comprendere il contesto e di reagire nell’ambito di una conversazione in tempo reale. Ecco una prima demo.
Veo e Imagen 3, l’IA per i creativi
Un altro annuncio è quello relativo a Veo, modello text-to-video in grado di generare filmati ad alta definizione partendo dalla loro descrizione testuale. Inevitabilmente, andrà a competere con Sora di OpenAI e con le alternative che stanno emergendo su questo fronte. Per altri dettagli rimandiamo all’articolo dedicato.
Al debutto poi Imagen 3 per il text-to-image (perfezionato anche imparando dagli errori commessi) e Music AI Sandbox per i musicisti.
C’è poi SynthID, una sorta di filigrana digitale per contenuti generati dall’intelligenza artificiale.
Per tutti i dettagli a proposito degli annunci giunti dal palco del keynote che ha aperto Google I/O 2024 rimandiamo al sito ufficiale. Attraverso il player qui sotto è possibile rivedere l’intero evento in streaming.