o3 di OpenAI, risultati deludenti nei benchmark

Quando si parla di intelligenza artificiale, i benchmark sono un po’ come le pagelle a scuola: tutti vogliono avere i voti migliori. Ma a volte, dietro a un 10 in bella mostra, si nasconde qualche aiutino. È il caso di o3, l’ultimo modello AI di OpenAI, che forse non è proprio il primo della classe come l’azienda aveva lasciato intendere.

Benchmark smentisce OpenAI: o3 non è così brillante come dichiarato

Secondo quanto dichiarato da OpenAI, o3 sarebbe stato in grado di rispondere correttamente a oltre il 25% delle domande di FrontierMath, un insieme di problemi matematici particolarmente complessi. Un risultato straordinario, se si pensa che il modello concorrente più vicino si fermava a un misero 2%. Mark Chen, chief research officer di OpenAI, durante una diretta streaming aveva ribadito con orgoglio: “Oggi, tutte le offerte sul mercato hanno meno del 2% [su FrontierMath]. Noi, con o3 in impostazioni di test aggressivo, siamo in grado di superare il 25%“.

Ma a quanto pare, quel 25% era più un’ipotesi ottimistica che una certezza. Epoch AI, l’istituto di ricerca che ha creato FrontierMath, ha condotto i suoi test indipendenti su o3 e ha scoperto che il modello in realtà si ferma intorno al 10%, ben al di sotto del punteggio sbandierato da OpenAI. Come mai questa discrepanza?

o3 “pompato” per i test?

Non è che OpenAI abbia mentito. I risultati pubblicati dall’azienda a dicembre mostrano effettivamente un punteggio minimo in linea con quello osservato da Epoch AI. E bisogna considerare che i setup di test probabilmente differiscono, e che Epoch AI ha usato una versione aggiornata di FrontierMath per le sue valutazioni.

Ma c’è un’altra possibile spiegazione: il modello o3 testato da OpenAI potrebbe essere stato “pompato” con una potenza di calcolo maggiore rispetto a quello effettivamente rilasciato al pubblico. Come ha fatto notare anche ARC Prize Foundation, un’organizzazione che aveva testato una versione pre-release di o3, il modello pubblico “è un modello diverso, ottimizzato per l’uso nelle chat e nei prodotti commerciali“.

Oramai è chiaro a tutti, i risultati dei benchmark sono da prendere con le pinze, soprattutto quando la fonte è un’azienda che ha dei servizi da vendere…

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech