Un rumor non confermato, diventato virale su X e Reddit, accusa Meta di aver manipolato i risultati dei benchmark per far apparire i suoi modelli AI Llama 4 più capaci di quello che sono in realtà.
Meta accusata di aver truccato i benchmark di Llama 4, la smentita
A rispondere alle accuse ci ha pensato Ahmad Al-Dahle, vicepresidente dell’AI generativa di Meta. In un post su X, Al-Dahle ha bollato come “semplicemente false” le voci secondo cui l’azienda avrebbe addestrato Maverick e Scout sui “test set”, ovvero i dataset usati per valutare le prestazioni di un modello dopo il training. Un’operazione che, se confermata, avrebbe gonfiato in modo fuorviante i punteggi dei benchmark, facendo apparire i modelli più performanti di quanto non siano nella realtà.
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
Ma da dove nasce questo rumors? Tutto sembra essere partito da un post su un social network cinese, in cui un utente che dice di essersi dimesso da Meta in segno di protesta ha lanciato l’accusa. A dar manforte alla tesi, ci sono le segnalazioni di alcuni utenti che lamentano prestazioni altalenanti di Maverick e Scout su certi task.
Inoltre, Meta ha usato una versione sperimentale e non rilasciata di Maverick per ottenere punteggi migliori sul benchmark LM Arena. Una scelta che ha insospettito alcuni ricercatori, che su X hanno notato differenze marcate tra il comportamento del Maverick scaricabile pubblicamente e quello pubblicato su LM Arena.
Modelli rilasciati in fretta
Al-Dahle ha ammesso che alcuni utenti stanno riscontrando una “qualità mista” da Maverick e Scout sui diversi cloud provider che ospitano i modelli. “Dato che abbiamo rilasciato i modelli non appena erano pronti, ci vorrà qualche giorno perché tutte le implementazioni pubbliche siano messe a punto“, ha spiegato il dirigente di Meta. “Continueremo a lavorare per correggere i bug e far salire a bordo i partner“, ha assicurato Al-Dahle.
Quanto sono attendibili i benchmark?
Il caso di Meta riaccende i riflettori sulla spinosa questione dei benchmark nell’era dell’intelligenza artificiale. In un settore in cui la corsa all’AI più potente si fa sempre più serrata, la tentazione di abbellire i risultati dei test per guadagnare visibilità e quote di mercato è forte.
Ma il rischio è quello di ingannare gli utenti e di alimentare aspettative esagerate sulle reali capacità dei modelli. Senza contare il danno reputazionale per le aziende coinvolte, se le accuse di manipolazione dovessero rivelarsi fondate.