Grok, l’assistente AI sviluppato da xAI, la società di intelligenza artificiale di Elon Musk, ha recentemente introdotto un’importante novità: l’integrazione delle capacità di visione. Questo aggiornamento consente a Grok di analizzare e comprendere le immagini, oltre alle funzionalità testuali già esistenti. Con l’introduzione di questa funzione, Grok colma il divario con i principali chatbot AI come ChatGPT o Claude, che già includevano l’analisi delle immagini.
eyes have been granted
image understanding now available
— Grok (@grok) October 28, 2024
Grok analizza le immagini sfruttando il modello Flux
Grazie all’integrazione con il modello Flux di Black Forest Labs, Grok è in grado non solo di generare immagini, ma anche di interpretare i contenuti visivi come documenti, diagrammi e fotografie. L’assistente AI può ora comprendere le relazioni spaziali all’interno delle immagini, facilitando la descrizione dei contenuti.
Questa funzionalità apre la strada a molteplici applicazioni, come la ricerca di idee per ricette basate su una foto degli ingredienti, l’identificazione della posizione di un punto di riferimento all’interno di un’immagine condivisa su X o persino la spiegazione dei risultati di un grafico.
Gli utenti della piattaforma X noteranno presto la comparsa di un nuovo pulsante sui post che contengono immagini. Cliccando su questo pulsante, l’immagine verrà inviata a Grok, consentendo agli utenti di porre domande o richiedere analisi del contenuto visivo. Questa funzionalità potrebbe rivelarsi particolarmente utile per descrivere le immagini alle persone con problemi di vista, migliorando l’accessibilità della piattaforma.
Confronto con i modelli AI già consolidati
Sebbene non siano ancora disponibili benchmark ufficiali, xAI sostiene che le capacità di visione di Grok siano all’altezza dei modelli consolidati di OpenAI, Google e Anthropic.
Per valutare le prestazioni del suo assistente AI, l’azienda ha introdotto un nuovo benchmark chiamato RealWorldQA, progettato per misurare la capacità del modello di comprendere e ragionare sul mondo fisico attraverso le immagini.
L’annuncio ha suscitato reazioni contrastanti tra gli utenti: alcuni si sono mostrati entusiasti della rapidità dei progressi di Grok, mentre altri hanno espresso cautela, mettendo in dubbio le sue prestazioni rispetto ai modelli di intelligenza artificiale già affermati.