Anthropic ha annunciato il lancio di un innovativo programma per finanziare lo sviluppo di nuovi tipi di benchmark per valutare le prestazioni e l’impatto dei modelli di AI, inclusi quelli generativi come il proprio Claude.
L’obiettivo è disporre di metriche e sistemi di valutazione nuovi e migliorati per testare le effettive prestazioni di modelli AI innovativi, superando i limiti degli attuali benchmark. Le aziende interessate a partecipare possono inviare una richiesta di valutazione in qualsiasi momento. Anthropic esaminerà in modo continuo le candidature per selezionare i partner più idonei a sviluppare nuovi standard di misurazione per l’intelligenza artificiale.
La necessità di nuovi benchmark per l’AI generativa
Anthropic è consapevole che lo sviluppo di metodi di valutazione davvero efficaci e affidabili per l’AI rappresenta ancora una sfida. Attualmente c’è molta più domanda che offerta di benchmark di qualità, in grado di testare a fondo aspetti come la sicurezza e l’impatto sociale dei modelli AI. Molte metriche utilizzate oggi hanno limiti notevoli.
Per questo l’azienda vuole investire in nuovi benchmark e stabilire uno standard industriale per la valutazione dell’AI. L’obiettivo è andare oltre i test esistenti, spesso inadeguati per i moderni sistemi AI, creando strumenti di misurazione più completi e focalizzati su sicurezza e implicazioni etiche.
Valutare i rischi e il potenziale dell’AI
Anthropic è particolarmente interessata a finanziare lo sviluppo di benchmark che valutino la propensione di un modello AI a compiere azioni potenzialmente pericolose o non etiche. Ad esempio, testare se un modello può essere sfruttato per attacchi hacker, potenziare armi di distruzione di massa, ingannare o manipolare le persone.
Anthropic sta lavorando ad un sistema per identificare e valutare precocemente i rischi per la sicurezza e la difesa legati all’AI. Allo stesso tempo, con questo programma Anthropic vuole promuovere benchmark che esplorino anche il potenziale positivo dell’AI. Ad esempio la capacità di fare ricerca scientifica, conversare in più lingue, ridurre pregiudizi e comportamenti tossici online.
Nuove piattaforme e collaborazioni
Per raggiungere questi obiettivi, Anthropic prevede lo sviluppo di nuove piattaforme che consentano agli esperti di creare le proprie valutazioni e di condurre prove su larga scala di modelli coinvolgendo “migliaia” di utenti. L’azienda ha assunto un coordinatore a tempo pieno per il programma e potrebbe acquistare o espandere i progetti ritenuti potenzialmente scalabili. I team partecipanti avranno l’opportunità di interagire direttamente con gli esperti di Anthropic dei vari team pertinenti.
Sebbene lo sforzo di Anthropic per supportare nuovi parametri di riferimento per l’AI sia lodevole, potrebbero sorgere alcuni dubbi. Dato il ruolo dell’azienda nella corsa all’intelligenza artificiale, potrebbe essere difficile riporre una fiducia completa nelle sue valutazioni. Inoltre, il programma potrebbe spingere i candidati ad accettare definizioni di AI “sicure” o “rischiose” che potrebbero non condividere.
Infine, una parte della comunità dell’AI potrebbe non essere d’accordo con l’enfasi di Anthropic sui potenziali rischi negativi estremi derivanti dall’AI avanzata. Alcuni, infatti, ritengono che questi scenari di “superintelligenza” che supera e mette in pericolo gli umani siano esagerati e poco plausibili.
Nonostante queste potenziali criticità, il programma di Anthropic rappresenta un passo importante verso una valutazione più completa e standardizzata dell’AI.