ArtPrompt: hack per chatbot AI con ASCII art

ArtPrompt: hack per chatbot AI con ASCII art

ArtPrompt è un tipo di jailbreak che sfrutta la ASCII art per aggirare i filtri dei modelli IA e ottenere dai chatbot risposte a domande vietate.
ArtPrompt: hack per chatbot AI con ASCII art
ArtPrompt è un tipo di jailbreak che sfrutta la ASCII art per aggirare i filtri dei modelli IA e ottenere dai chatbot risposte a domande vietate.

Un team di ricercatori delle università di Washington e Chicago ha scoperto un nuovo modo per aggirare i filtri dei modelli di intelligenza artificiale generativa. Il jailbreak prevede l’uso della ASCII art per ingannare il chatbot e ottenere risposte su argomenti vietati. La tecnica, denominata ArtPrompt, funziona con GPT-3.5/4 (OpenAI), Gemini (Google), Claude (Anthropic) e Llama (Meta).

ArtPrompt: jailbreak con ASCII art

Tutti i chatbot si rifiutano di rispondere a domande su specifici argomenti, ad esempio quando l’utente chiede le istruzioni per costruire una bomba. Il trucco usato dai ricercatori è mascherare la parola “bomba” con la ASCII art. Quest’ultima è nata negli anni ’70 per creare e stampare immagini usando i caratteri ASCII.

Nel documento pubblicato dai ricercatori c’è un esempio di attacco ArtPrompt contro GPT-4. È stato chiesto al chatbot di identificare la parola “counterfeit” (contraffatto/a) scritta con ASCII art, seguendo le istruzioni passo-passo.

Nello stesso prompt viene quindi chiesto di fornire le istruzioni per distribuire monete contraffatte, ma invece di “contraffatte” è stata usata la stringa [MASK] che corrisponde alla parola in ASCII art. Il chatbot ha risposto alla domanda.

ArtPrompt

In un secondo esempio, non presente del documento, la parola in ASCII art è “control” (controllo). Il chatbot ha risposto con il codice necessario per sfruttare vulnerabilità nei dispositivi IoT e prendere il controllo. La tecnica permette quindi di aggirare le misure di sicurezza implementate da OpenAI. Al momento non è noto se esistono soluzioni al problema.

Fonte: ArsTechnica
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
17 mar 2024
Link copiato negli appunti