Anthropic, famosa per i suoi modelli Claude, sta lanciando una nuova iniziativa per rafforzare le misure di sicurezza dell’AI. Il laboratorio di ricerca sull’AI sta ampliando il suo programma di bug bounty, con ricompense fino a 15.000 dollari a chi rileva jailbreak universali nel suo imminente sistema di sicurezza.
We're expanding our bug bounty program. This new initiative is focused on finding universal jailbreaks in our next-generation safety system.
We're offering rewards for novel vulnerabilities across a wide range of domains, including cybersecurity. https://t.co/OHNhrjUnwm
— Anthropic (@AnthropicAI) August 8, 2024
15.000$ a chi viola il sistema di sicurezza AI di Anthropic
Il programma di bug bounty mira a scoprire le vulnerabilità che potrebbero aggirare le barriere di sicurezza dell’intelligenza artificiale in un’ampia gamma di settori ad alto rischio, tra cui quello chimico, biologico, radiologico, nucleare e della sicurezza informatica. Questa mossa fa parte degli sforzi di Anthropic per rafforzare le proprie difese contro il potenziale uso improprio dei suoi modelli AI.
Mike Sellitto, responsabile degli affari globali di Anthropic, ha sottolineato la complessità della sicurezza dei sistemi AI. “La superficie di attacco è in qualche modo illimitata. Senza protezioni, si può inserire qualsiasi cosa nei modelli come input, e i modelli possono generare essenzialmente qualsiasi cosa come output“.
La nuova iniziativa di Anthropic si concentra nell’identificare vulnerabilità “universali” nel sistema di sicurezza della loro AI, piuttosto che vulnerabilità isolate e specifiche. Cosa si intende con vulnerabilità “universali”? Sono problematiche di sicurezza che possono essere sfruttate in modo ripetuto e sistematico, non sono semplici incidenti isolati.
Questo tipo di vulnerabilità sono particolarmente preoccupanti, perché minacciano la sicurezza dell’AI in molteplici contesti e situazioni. Se non vengono individuate e risolte, possono portare ad un utilizzo improprio o addirittura pericoloso della tecnologia AI.
Il programma di bug bounty ampliato funzionerà inizialmente solo su invito in collaborazione con HackerOne (ma l’azienda prevede di renderlo più accessibile in futuro). I partecipanti otterranno un accesso anticipato per testare l’ultimo sistema di mitigazione della sicurezza di Anthropic prima del suo rilascio pubblico.
Verso uno sviluppo dell’AI responsabile
L’iniziativa di Anthropic si allinea agli impegni assunti da altre aziende per lo sviluppo di un’AI responsabile, tra cui Voluntary AI Commitments annunciati dalla Casa Bianca e il Codice di condotta del G7 per le organizzazioni che sviluppano sistemi avanzati di AI.
I ricercatori esperti di sicurezza AI e coloro che hanno esperienza nell’identificazione di jailbreak dei modelli linguistici possono richiedere un invito attraverso il modulo di candidatura di Anthropic entro il 16 agosto. L’azienda prevede di informare i candidati prescelti in autunno e mira a espandere il programma in modo più ampio in futuro.