Llama 4 di Meta brilla su LM Arena, ma c'è il trucco

Maverick, uno dei nuovi modelli AI Llama 4 rilasciati da Meta sabato scorso, si piazza al secondo posto su LM Arena. Sembra un risultato eccezionale, ma c’è un problema: la versione di Maverick utilizzata su LM Arena non è la stessa disponibile per gli sviluppatori…

I test di Meta sui nuovi modelli AI sono fuorvianti?

Come hanno fatto notare diversi ricercatori di AI su X, Meta ha specificato nel suo annuncio che Maverick su LM Arena è una “versione sperimentale per chat“. Inoltre, un grafico sul sito ufficiale di Llama rivela che i test di Meta su LM Arena si basano su una variante ottimizzata per offrire risposte più naturali e fluide in chat.

Non è la prima volta che si sollevano dubbi sull’affidabilità di LM Arena come misura delle prestazioni di un modello AI. Tuttavia, finora le aziende non avevano ammesso di aver personalizzato o ottimizzato i loro modelli per ottenere punteggi migliori su questa piattaforma.

Il problema nel creare un modello su misura per un benchmark, tenerlo nascosto e poi rilasciare una variante “vanilla” dello stesso modello è che rende difficile per gli sviluppatori prevedere esattamente quanto bene funzionerà in contesti specifici. È anche fuorviante. Idealmente, i benchmark, per quanto imperfetti, dovrebbero fornire una panoramica dei punti di forza e di debolezza di un singolo modello in una serie di attività.

I ricercatori su X hanno notato differenze evidenti nel comportamento del Maverick scaricabile pubblicamente rispetto al modello ospitato su LM Arena. La versione di LM Arena sembra usare molte emoji e dare risposte incredibilmente prolisse.

Trasparenza, questa sconosciuta…

Meta e Chatbot Arena ora dovranno rispondere alla critiche, ma questa vicenda solleva interrogativi sulla trasparenza delle aziende che sviluppano modelli AI. Se i benchmark vengono usati come strumenti di marketing, ma non riflettono le reali capacità dei modelli messi a disposizione degli utenti, si rischia di creare solo confusione e false aspettative.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech