La società di intelligenza artificiale fondata da Elon Musk, xAI, sta lavorando per rendere Grok in grado di accettare input multimodali, in particolare immagini. Secondo i documenti pubblici degli sviluppatori, presto gli utenti avranno la possibilità di caricare foto sul chatbot AI e ricevere risposte testuali.
I modelli multimodali sono il futuro dell’AI conversazionale. xAI lo sa bene e con Grok vuole aprire la strada a sistemi sempre più capaci di comprendere e interagire con il mondo che li circonda.
La prima anticipazione di questa novità era stata fornita il mese scorso in un post sul blog di xAI, in cui si annunciava che Grok-1.5V avrebbe offerto “modelli multimodali in diversi ambiti“. L’ultimo aggiornamento dei documenti per gli sviluppatori sembra confermare i progressi compiuti nella realizzazione di questo nuovo modello.
L’evoluzione di Grok
Nei documenti per gli sviluppatori, un esempio di script Python dimostra come sia possibile utilizzare la libreria del kit di sviluppo software xAI per generare una risposta basata su testo e immagini. Lo script legge un file immagine, imposta un prompt di testo e sfrutta l’SDK xAI per generare una risposta, aprendo la strada a un’interazione sempre più ricca e sfaccettata tra utenti e chatbot.
L’introduzione degli input multimodali rappresenta un aggiornamento significativo per Grok, che xAI ha rilasciato per la prima volta nel novembre 2023 e che è attualmente disponibile per gli utenti che pagano l’abbonamento X Premium Plus. L’ultimo aggiornamento, Grok 1.5, risalente a marzo, aveva già migliorato le capacità di ragionamento del chatbot.
Secondo quanto riportato in un post sul blog di X, il modello Grok è stato addestrato su una varietà di dati testuali provenienti da fonti pubbliche di Internet fino al terzo trimestre del 2023 e su set di dati rivisti e curati da revisori umani. È importante sottolineare che Grok-1 non è stato addestrato sui dati di X (compresi i post pubblici), ma dispone comunque di una conoscenza in tempo reale del mondo, inclusi i post su X.
xAI e la competizione nell’AI
Nonostante sia relativamente nuova nel campo dell’intelligenza artificiale, xAI sta rapidamente colmando il divario con i concorrenti come ChatGPT di OpenAI. A dire di Elon Musk, il modello Grok 1.5 sta raggiungendo risultati sempre più vicini a quelli di GPT-4 su vari benchmark che coprono un’ampia gamma di problemi di competizione tra le scuole elementari e le scuole superiori. Tuttavia, è importante considerare che i benchmark per i modelli linguistici di grandi dimensioni sono spesso criticati, poiché i modelli possono ottenere buoni risultati se i benchmark stessi sono inclusi nei dati di addestramento, un po’ come memorizzare le risposte di un test invece di imparare realmente la materia.
I chatbot conversazionali multimodali rappresentano la prossima frontiera dell’AI, come dimostrano i numerosi progressi annunciati al Google I/O e il rilascio dI GPT-4o da parte di OpenAI. Fino ad ora, Grok era rimasto indietro rispetto ai competitor, non disponendo di capacità multimodali. Tuttavia, con l’introduzione degli input multimodali, xAI si prepara a competere ad armi pari con i suoi rivali.