Nuovo test AGI mette in crisi i modelli AI più avanzati

Nuovo test AGI mette in crisi i modelli AI più avanzati

Un nuovo test AGI creato dalla Arc Prize Foundation sta mettendo in difficoltà i principali modelli AI come GPT-4.5 e Claude 3.7.
Nuovo test AGI mette in crisi i modelli AI più avanzati
Un nuovo test AGI creato dalla Arc Prize Foundation sta mettendo in difficoltà i principali modelli AI come GPT-4.5 e Claude 3.7.

L’Arc Prize Foundation, organizzazione no-profit co-fondata dal rinomato ricercatore di AI François Chollet, ha creato un nuovo test per valutare l’intelligenza generale dei modelli AI più avanzati. E i risultati non sono incoraggianti.

Test AGI avanzato, pochi modelli AI lo superano

Il nuovo test, chiamato ARC-AGI-2, ha messo in difficoltà anche i sistemi AI più sofisticati. I modelli di ragionamento come o1-pro di OpenAI e R1 di DeepSeek hanno ottenuto punteggi tra l’1% e l’1,3%. I modelli standard come GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash si sono fermati intorno all’1%.

ARC-AGI-2 propone problemi simili a puzzle, in cui l’AI deve identificare pattern visivi da una raccolta di quadrati colorati e generare la griglia di “risposta” corretta. L’obiettivo? Costringere l’AI ad adattarsi a problemi mai visti prima. Il test impedisce ai modelli di fare affidamento sulla potenza di calcolo estensiva per trovare soluzioni, e introduce una nuova metrica: l’efficienza.

L’Arc Prize Foundation ha fatto testare ARC-AGI-2 a oltre 400 persone per stabilire un punto di riferimento umano. In media, i “panel” di queste persone hanno risposto correttamente al 60% delle domande del test. Un risultato nettamente superiore a quello ottenuto dai modelli AI.

Il precedente test, ARC-AGI-1, è rimasto imbattuto per circa cinque anni, fino a dicembre 2024, quando OpenAI ha introdotto o3, il suo modello di ragionamento più avanzato. Tuttavia, il miglioramento delle prestazioni di o3 su ARC-AGI-1 ha comportato un costo significativo in termini di potenza di calcolo.

La sfida del nuovo Arc Prize 2025

Insieme al nuovo benchmark, l’Arc Prize Foundation ha annunciato un nuovo concorso, l’Arc Prize 2025, sfidando gli sviluppatori a raggiungere l’85% di accuratezza sul test ARC-AGI-2 spendendo solo 0,42 dollari per task. Chi raccoglierà la sfida?

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
25 mar 2025
Link copiato negli appunti