o3 di OpenAI, risultati deludenti nei benchmark

o3 di OpenAI, risultati deludenti nei benchmark

OpenAI ha sovrastimato le performance di o3. I benchmark indipendenti rivelano un quadro meno ottimistico.
o3 di OpenAI, risultati deludenti nei benchmark
OpenAI ha sovrastimato le performance di o3. I benchmark indipendenti rivelano un quadro meno ottimistico.

Quando si parla di intelligenza artificiale, i benchmark sono un po’ come le pagelle a scuola: tutti vogliono avere i voti migliori. Ma a volte, dietro a un 10 in bella mostra, si nasconde qualche aiutino. È il caso di o3, l’ultimo modello AI di OpenAI, che forse non è proprio il primo della classe come l’azienda aveva lasciato intendere.

Benchmark smentisce OpenAI: o3 non è così brillante come dichiarato

Secondo quanto dichiarato da OpenAI, o3 sarebbe stato in grado di rispondere correttamente a oltre il 25% delle domande di FrontierMath, un insieme di problemi matematici particolarmente complessi. Un risultato straordinario, se si pensa che il modello concorrente più vicino si fermava a un misero 2%. Mark Chen, chief research officer di OpenAI, durante una diretta streaming aveva ribadito con orgoglio: “Oggi, tutte le offerte sul mercato hanno meno del 2% [su FrontierMath]. Noi, con o3 in impostazioni di test aggressivo, siamo in grado di superare il 25%“.

Ma a quanto pare, quel 25% era più un’ipotesi ottimistica che una certezza. Epoch AI, l’istituto di ricerca che ha creato FrontierMath, ha condotto i suoi test indipendenti su o3 e ha scoperto che il modello in realtà si ferma intorno al 10%, ben al di sotto del punteggio sbandierato da OpenAI. Come mai questa discrepanza?

o3 “pompato” per i test?

Non è che OpenAI abbia mentito. I risultati pubblicati dall’azienda a dicembre mostrano effettivamente un punteggio minimo in linea con quello osservato da Epoch AI. E bisogna considerare che i setup di test probabilmente differiscono, e che Epoch AI ha usato una versione aggiornata di FrontierMath per le sue valutazioni.

Ma c’è un’altra possibile spiegazione: il modello o3 testato da OpenAI potrebbe essere stato “pompato” con una potenza di calcolo maggiore rispetto a quello effettivamente rilasciato al pubblico. Come ha fatto notare anche ARC Prize Foundation, un’organizzazione che aveva testato una versione pre-release di o3, il modello pubblico “è un modello diverso, ottimizzato per l’uso nelle chat e nei prodotti commerciali“.

Oramai è chiaro a tutti, i risultati dei benchmark sono da prendere con le pinze, soprattutto quando la fonte è un’azienda che ha dei servizi da vendere…

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
21 apr 2025
Link copiato negli appunti