Grok-1.5 Vision: primo modello multimodale di xAI

A distanza di circa due settimane dal versione 1.5, xAI ha ora annunciato Grok-1.5V. La lettera V è l’iniziale di Vision, quindi si tratta del primo modello multimodale dell’azienda di Elon Musk.

Grok elabora anche documenti e immagini

Oltre agli input testuali, il nuovo modello può elaborare diverse informazioni visuali, tra cui documenti, diagrammi, tabelle, screenshot e immagini. Grok-1.5V sarà presto disponibile in anteprima ad alcuni tester e agli attuali utenti. xAI ha pubblicato alcuni benchmark che dimostrano la superiorità rispetto a quattro concorrenti nell’esecuzione di specifiche attività.

L’azienda di Elon Musk evidenzia in particolare la prima posizione nel nuovo benchmark RealWorldQA, sviluppato da xAI, che misura la comprensione del mondo reale. Grok-1.5V ha raggiunto il 68,7%, superando Gemini 1.5 Pro, GPT-4-V, Claude 3 Sonnet e Claude 3 Opus. Utilizzando varie immagini come input, il modello è in grado di identificare gli oggetti presenti e fornire risposte su specifiche domande.

Nel comunicato stampa ci sono inoltre alcuni esempi che mostrano le capacità di Grok-1.5V. Il modello può scrivere codice Python a partire da un diagramma di flusso, calcolare calorie a partire da un’etichetta nutrizionale, generare una storia a partire da un disegno, spiegare un meme o convertire una tabella in formato CSV.

Nel corso dei prossimi mesi sono previsti ulteriori miglioramenti della capacità di riconoscimento di immagini, video e audio.

Fonte: xAI

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech