I ricercatori di Anthropic hanno scoperto una nuova tecnica di jailbreak che può convincere un’intelligenza artificiale a rispondere a domande potenzialmente pericolose. Questa vulnerabilità, chiamata “many-shot jailbreaking“, sfrutta l’aumento della finestra di contesto degli LLM di ultima generazione.
La finestra di contesto rappresenta la quantità di dati che un modello può contenere nella sua memoria a breve termine. Mentre in passato questa finestra era limitata a poche frasi, ora può comprendere migliaia di parole e persino interi libri. I ricercatori hanno osservato che i modelli con ampie finestre di contesto tendono a ottenere risultati migliori in molti compiti se all’interno del prompt sono presenti numerosi esempi di quel compito.
L’apprendimento nel contesto e le sue implicazioni
Attraverso un processo chiamato “apprendimento nel contesto“, gli LLM diventano sempre più “abili” nel rispondere a domande inappropriate se vengono prima sottoposte a una serie di domande apparentemente innocue. Ad esempio, se a un modello viene chiesto di costruire una bomba, probabilmente si rifiuterà. Tuttavia, se gli vengono poste altre 99 domande inoffensive e poi gli si chiede di costruire una bomba, è molto più probabile che fornisca una risposta.
Il team di Anthropic ha scritto un articolo per descrivere la tecnica, oltre ad avvisare li colleghi e i concorrenti affinché possano trovare il modo di mitigare questa vulnerabilità. L’obiettivo è quello di diffondere la consapevolezza su questo tipo di attacco informatico sui modelli linguistici di grandi dimensioni, in modo da poter prevenire e limitare i potenziali utilizzi dannosi.
Strategie di mitigazione dei rischi e sfide future
Per mitigare questa vulnerabilità, il team di Anthropic sta lavorando su diverse strategie. Sebbene limitare la finestra di contesto possa essere utile, ha anche un effetto negativo sulle prestazioni del modello. Un’altra strategia è quella di classificare e contestualizzare le query prima che vengano inviate al modello. Tuttavia, questo approccio potrebbe portare a un nuovo modello da ingannare, evidenziando la natura in continua evoluzione della sicurezza nel campo dell’intelligenza artificiale.
La scoperta fatta da Anthropic dimostra che garantire modelli AI affidabili e sicuri è una sfida in divenire che necessiterà di monitoraggio, collaborazione e innovazione costanti da parte dell’intera comunità di ricerca sull’intelligenza artificiale.