Opera ha finora utilizzato i modelli GPT di OpenAI per il chatbot integrato nel browser. La software house norvegese ha annunciato l’avvio della collaborazione con Google e quindi il supporto per i modelli Gemini. Con l’ultimo Feature Drops è stata inoltre aggiunta la funzionalità di comprensione delle immagini.
Opera Aria: Gemini e Imagen 2
In realtà, Opera aveva già avviato la collaborazione con Google, in quanto utilizza il modello Imagen 2 per la generazione delle immagini e il modello Wavenet per la lettura a voce alta delle risposte di Aria. L’accordo è stato ora esteso ai modelli Gemini che si aggiungono agli oltre 150 LLM (Large Language Model) già disponibili per l’esecuzione locale.
Gemini richiede però l’accesso al cloud, in particolare al servizio Vertex AI di Google Cloud (come avviene per Imagen 2). Opera Aria utilizza un Composer AI engine multi-LLM che sceglie automaticamente il modello migliore in base alla richiesta dell’utente.
La nuova funzionalità introdotta oggi si chiama Image Understanding. Sfruttando la capacità multimodali del chatbot è possibile caricare fino a tre immagini nel pannello laterale e chiedere informazioni sul contenuto.
La funzionalità può essere utilizzata anche per risolvere problemi matematici. Il chatbot può ad esempio identificare un’equazione e fornire la soluzione passo-passo. Analogamente può generare codice in Python in base al testo presente nell’immagine. Può infine generare un’immagine a partire da un disegno.
Per testare le novità IA è necessario installare Opera Developer. Da metà maggio è disponibile anche la versione nativa per chip ARM.