L’Arc Prize Foundation, organizzazione no-profit co-fondata dal rinomato ricercatore di AI François Chollet, ha creato un nuovo test per valutare l’intelligenza generale dei modelli AI più avanzati. E i risultati non sono incoraggianti.
Test AGI avanzato, pochi modelli AI lo superano
Il nuovo test, chiamato ARC-AGI-2, ha messo in difficoltà anche i sistemi AI più sofisticati. I modelli di ragionamento come o1-pro di OpenAI e R1 di DeepSeek hanno ottenuto punteggi tra l’1% e l’1,3%. I modelli standard come GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash si sono fermati intorno all’1%.
ARC-AGI-2 propone problemi simili a puzzle, in cui l’AI deve identificare pattern visivi da una raccolta di quadrati colorati e generare la griglia di “risposta” corretta. L’obiettivo? Costringere l’AI ad adattarsi a problemi mai visti prima. Il test impedisce ai modelli di fare affidamento sulla potenza di calcolo estensiva per trovare soluzioni, e introduce una nuova metrica: l’efficienza.
L’Arc Prize Foundation ha fatto testare ARC-AGI-2 a oltre 400 persone per stabilire un punto di riferimento umano. In media, i “panel” di queste persone hanno risposto correttamente al 60% delle domande del test. Un risultato nettamente superiore a quello ottenuto dai modelli AI.
Il precedente test, ARC-AGI-1, è rimasto imbattuto per circa cinque anni, fino a dicembre 2024, quando OpenAI ha introdotto o3, il suo modello di ragionamento più avanzato. Tuttavia, il miglioramento delle prestazioni di o3 su ARC-AGI-1 ha comportato un costo significativo in termini di potenza di calcolo.
La sfida del nuovo Arc Prize 2025
Insieme al nuovo benchmark, l’Arc Prize Foundation ha annunciato un nuovo concorso, l’Arc Prize 2025, sfidando gli sviluppatori a raggiungere l’85% di accuratezza sul test ARC-AGI-2 spendendo solo 0,42 dollari per task. Chi raccoglierà la sfida?