Maverick, uno dei nuovi modelli AI Llama 4 rilasciati da Meta sabato scorso, si piazza al secondo posto su LM Arena. Sembra un risultato eccezionale, ma c’è un problema: la versione di Maverick utilizzata su LM Arena non è la stessa disponibile per gli sviluppatori…
I test di Meta sui nuovi modelli AI sono fuorvianti?
Come hanno fatto notare diversi ricercatori di AI su X, Meta ha specificato nel suo annuncio che Maverick su LM Arena è una “versione sperimentale per chat“. Inoltre, un grafico sul sito ufficiale di Llama rivela che i test di Meta su LM Arena si basano su una variante ottimizzata per offrire risposte più naturali e fluide in chat.
Non è la prima volta che si sollevano dubbi sull’affidabilità di LM Arena come misura delle prestazioni di un modello AI. Tuttavia, finora le aziende non avevano ammesso di aver personalizzato o ottimizzato i loro modelli per ottenere punteggi migliori su questa piattaforma.
Il problema nel creare un modello su misura per un benchmark, tenerlo nascosto e poi rilasciare una variante “vanilla” dello stesso modello è che rende difficile per gli sviluppatori prevedere esattamente quanto bene funzionerà in contesti specifici. È anche fuorviante. Idealmente, i benchmark, per quanto imperfetti, dovrebbero fornire una panoramica dei punti di forza e di debolezza di un singolo modello in una serie di attività.
I ricercatori su X hanno notato differenze evidenti nel comportamento del Maverick scaricabile pubblicamente rispetto al modello ospitato su LM Arena. La versione di LM Arena sembra usare molte emoji e dare risposte incredibilmente prolisse.
Trasparenza, questa sconosciuta…
Meta e Chatbot Arena ora dovranno rispondere alla critiche, ma questa vicenda solleva interrogativi sulla trasparenza delle aziende che sviluppano modelli AI. Se i benchmark vengono usati come strumenti di marketing, ma non riflettono le reali capacità dei modelli messi a disposizione degli utenti, si rischia di creare solo confusione e false aspettative.