Google ha esteso il suo Vulnerability Rewards Program (VRP) per premiare i ricercatori di sicurezza che scoprono vulnerabilità nei modelli di intelligenza artificiale generativa. L’obiettivo è prevenire attacchi informatici contro i sistemi IA che possono rappresentare un rischio per utenti e aziende. I premi variano in base alla gravità dell’attacco e al tipo di target.
Programma bug bounty per IA generativa
Google spiega che l’intelligenza artificiale generativa necessita di un nuovo approccio, in quanto i pericoli sono diversi da quelli tradizionali, ad esempio pregiudizi, manipolazione di modelli o interpretazioni errate dei dati (allucinazioni). Il team Trust and Safety dell’azienda californiana effettua numerosi test sulle funzionalità IA integrate nei prodotti, ma i ricercatori di terze parti possono fornire il loro aiuto per trovare e risolvere vulnerabilità non rilevate.
Il programma bug bounty (o rewards) include ora specifici premi per i vari attacchi che sfruttano i bug dei modelli IA. Il programma prevede cinque categorie. I cosiddetti Prompt Attacks includono principalmente i prompt injections, ovvero input che consentono di ingannare il modello IA per ottenere risultati inattesi. Un cybercriminale potrebbe, ad esempio, generare testo offensivo o accedere a dati sensibili.
I Training Data Extraction sono invece attacchi che consentono di ricostruire esempi di addestramento per estrarre informazioni personali o password dai dati. Il programma copre inoltre attacchi che prevedono la manipolazione dei modelli IA e il furto dei dati del modello. Non ci sono invece premi per la scoperta di bug relativi alla violazione del copyright.
I premi variano in base alla gravità della vulnerabilità. Il massimo attuale è 31.337 dollari. Google ha pagato premi per oltre 12 milioni di dollari nel corso del 2022.