Un team di ricercatori delle università di Washington e Chicago ha scoperto un nuovo modo per aggirare i filtri dei modelli di intelligenza artificiale generativa. Il jailbreak prevede l’uso della ASCII art per ingannare il chatbot e ottenere risposte su argomenti vietati. La tecnica, denominata ArtPrompt, funziona con GPT-3.5/4 (OpenAI), Gemini (Google), Claude (Anthropic) e Llama (Meta).
ArtPrompt: jailbreak con ASCII art
Tutti i chatbot si rifiutano di rispondere a domande su specifici argomenti, ad esempio quando l’utente chiede le istruzioni per costruire una bomba. Il trucco usato dai ricercatori è mascherare la parola “bomba” con la ASCII art. Quest’ultima è nata negli anni ’70 per creare e stampare immagini usando i caratteri ASCII.
Nel documento pubblicato dai ricercatori c’è un esempio di attacco ArtPrompt contro GPT-4. È stato chiesto al chatbot di identificare la parola “counterfeit” (contraffatto/a) scritta con ASCII art, seguendo le istruzioni passo-passo.
Nello stesso prompt viene quindi chiesto di fornire le istruzioni per distribuire monete contraffatte, ma invece di “contraffatte” è stata usata la stringa [MASK] che corrisponde alla parola in ASCII art. Il chatbot ha risposto alla domanda.
In un secondo esempio, non presente del documento, la parola in ASCII art è “control” (controllo). Il chatbot ha risposto con il codice necessario per sfruttare vulnerabilità nei dispositivi IoT e prendere il controllo. La tecnica permette quindi di aggirare le misure di sicurezza implementate da OpenAI. Al momento non è noto se esistono soluzioni al problema.