A distanza di circa due settimane dal versione 1.5, xAI ha ora annunciato Grok-1.5V. La lettera V è l’iniziale di Vision, quindi si tratta del primo modello multimodale dell’azienda di Elon Musk.
Grok elabora anche documenti e immagini
Oltre agli input testuali, il nuovo modello può elaborare diverse informazioni visuali, tra cui documenti, diagrammi, tabelle, screenshot e immagini. Grok-1.5V sarà presto disponibile in anteprima ad alcuni tester e agli attuali utenti. xAI ha pubblicato alcuni benchmark che dimostrano la superiorità rispetto a quattro concorrenti nell’esecuzione di specifiche attività.
L’azienda di Elon Musk evidenzia in particolare la prima posizione nel nuovo benchmark RealWorldQA, sviluppato da xAI, che misura la comprensione del mondo reale. Grok-1.5V ha raggiunto il 68,7%, superando Gemini 1.5 Pro, GPT-4-V, Claude 3 Sonnet e Claude 3 Opus. Utilizzando varie immagini come input, il modello è in grado di identificare gli oggetti presenti e fornire risposte su specifiche domande.
Nel comunicato stampa ci sono inoltre alcuni esempi che mostrano le capacità di Grok-1.5V. Il modello può scrivere codice Python a partire da un diagramma di flusso, calcolare calorie a partire da un’etichetta nutrizionale, generare una storia a partire da un disegno, spiegare un meme o convertire una tabella in formato CSV.
Nel corso dei prossimi mesi sono previsti ulteriori miglioramenti della capacità di riconoscimento di immagini, video e audio.