OpenAI ha appena annunciato il suo nuovo modello o3, e a quanto pare sta facendo faville nei test di benchmark. Ha ottenuto un punteggio del 88% nell’ARC-AGI, un test difficilissimo usato per valutare i progressi verso l’AGI (l’intelligenza artificiale generale, per i non addetti ai lavori). Nessun altro modello AI aveva mai superato il 32%.
Test-time scaling, la nuova frontiera dell’AI
Ma come ha fatto OpenAI o3 a fare questo salto in avanti? Sembra che il segreto sia una tecnica chiamata “test-time scaling“, che in parole povere significa usare più potenza di calcolo nella fase di inferenza, cioè quando l’AI risponde alle domande degli utenti. Non si sa esattamente come funzioni, ma di sicuro comporta l’uso di più chip, chip più potenti o tempi di elaborazione più lunghi (fino a 10-15 minuti per risposta).
OpenAI o3 segna i record ma a caro prezzo
Certo, o3 fa ben sperare per il futuro dell’AI, ma c’è un problema non da poco: i costi. Per ottenere quel famoso 88% nell’ARC-AGI, OpenAI ha dovuto spendere più di 1.000 dollari di risorse di calcolo per ogni singola domanda. Per fare un confronto, il precedente modello o1 ne usava circa 5 dollari, e la versione mini addirittura pochi centesimi. Insomma, stiamo parlando di una bella differenza.
Viene da chiedersi: ma a chi serve un’AI così potente (e costosa)? Di sicuro non per le domande di tutti i giorni. o3 sembra più adatto per quesiti complessi e ad alto impatto.
I limiti di o3 (e dell’AI in generale)
Attenzione però: o3 non è certo l’AGI tanto agognata. Anzi, fallisce ancora su alcuni compiti banali che un essere umano risolverebbe in un attimo. E poi c’è il problema delle allucinazioni, cioè le risposte inventate di sana pianta, che o3 e il test-time scaling non sembrano aver risolto. Insomma, prima di fidarci ciecamente di questi modelli AI, c’è ancora tanta strada da fare.