Nuovo test AGI mette in crisi i modelli AI più avanzati

L’Arc Prize Foundation, organizzazione no-profit co-fondata dal rinomato ricercatore di AI François Chollet, ha creato un nuovo test per valutare l’intelligenza generale dei modelli AI più avanzati. E i risultati non sono incoraggianti.

Test AGI avanzato, pochi modelli AI lo superano

Il nuovo test, chiamato ARC-AGI-2, ha messo in difficoltà anche i sistemi AI più sofisticati. I modelli di ragionamento come o1-pro di OpenAI e R1 di DeepSeek hanno ottenuto punteggi tra l’1% e l’1,3%. I modelli standard come GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash si sono fermati intorno all’1%.

ARC-AGI-2 propone problemi simili a puzzle, in cui l’AI deve identificare pattern visivi da una raccolta di quadrati colorati e generare la griglia di “risposta” corretta. L’obiettivo? Costringere l’AI ad adattarsi a problemi mai visti prima. Il test impedisce ai modelli di fare affidamento sulla potenza di calcolo estensiva per trovare soluzioni, e introduce una nuova metrica: l’efficienza.

L’Arc Prize Foundation ha fatto testare ARC-AGI-2 a oltre 400 persone per stabilire un punto di riferimento umano. In media, i “panel” di queste persone hanno risposto correttamente al 60% delle domande del test. Un risultato nettamente superiore a quello ottenuto dai modelli AI.

Il precedente test, ARC-AGI-1, è rimasto imbattuto per circa cinque anni, fino a dicembre 2024, quando OpenAI ha introdotto o3, il suo modello di ragionamento più avanzato. Tuttavia, il miglioramento delle prestazioni di o3 su ARC-AGI-1 ha comportato un costo significativo in termini di potenza di calcolo.

La sfida del nuovo Arc Prize 2025

Insieme al nuovo benchmark, l’Arc Prize Foundation ha annunciato un nuovo concorso, l’Arc Prize 2025, sfidando gli sviluppatori a raggiungere l’85% di accuratezza sul test ARC-AGI-2 spendendo solo 0,42 dollari per task. Chi raccoglierà la sfida?

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech