Google ha annunciato ieri il nuovo modello di intelligenza artificiale generativa che sarà disponibile in tre dimensioni. Gemini Nano verrà utilizzato per le funzionalità IA del Pixel 8 Pro. Gemini Pro potenzierà il chatbot Bard, mentre Gemini Ultra verrà utilizzato da sviluppatori, clienti e partner, ma anche in Bard Advanced, la versione a pagamento dell’assistente digitale.
Gemini Pro in Bard
Gemini è un modello multimodale, quindi può riconoscere testo, immagini, video e audio anche in contemporanea. Un video pubblicato da Google su YouTube mostra le capacità che gli utenti potranno sfruttare in Bard. Da un semplice disegno, il chatbot riconosce una papera e dal rumore capisce che la papera è di gomma. Altri esempi dimostrano la potenza del modello.
A partire da ieri, Gemini Pro è il modello usato da Bard (al momento solo in inglese). In base ai test (PDF) effettuati da Google, Gemini Pro supera GPT-3.5 in sei benchmark su otto. Bard ha quindi maggiori capacità di comprensione e ragionamento. Gli utenti di lingua inglese possono già usare Bard con Gemini Pro per prompt di testo in oltre 170 paesi (non ancora in Italia). Le altre modalità (immagini, video e audio) saranno disponibili nelle prossime settimane.
Gemini Ultra in Bard Advanced
Gemini Ultra è il modello più grande e più potente. Supera GPT-4 e GPT-4V in quasi tutti i benchmark. Sarà inizialmente disponibile per sviluppatori, clienti e partner, in quanto Google vuole ricevere i feedback necessari per apportare eventuali miglioramenti, soprattutto in termini di sicurezza.
Nel 2024 verrà utilizzato in Bard Advanced, la versione a pagamento del chatbot. Gemini verrà ovviamente integrato anche nella Search Generative Experience (SGE), la versione IA del motore di ricerca, oltre che in Chrome e Duet AI. Per l’addestramento e l’inferenza del modello viene sfruttato il nuovo acceleratore Cloud TPU v5p.
Aggiornamento (8/12/2023): Google ha chiarito che il video pubblicato su YouTube è stato modificato, quindi le risposte di Gemini non sono in tempo reale. Inoltre non è stato usato nessun prompt vocale, ma solo prompt testuali.