ArtPrompt: hack per chatbot AI con ASCII art

Un team di ricercatori delle università di Washington e Chicago ha scoperto un nuovo modo per aggirare i filtri dei modelli di intelligenza artificiale generativa. Il jailbreak prevede l’uso della ASCII art per ingannare il chatbot e ottenere risposte su argomenti vietati. La tecnica, denominata ArtPrompt, funziona con GPT-3.5/4 (OpenAI), Gemini (Google), Claude (Anthropic) e Llama (Meta).

ArtPrompt: jailbreak con ASCII art

Tutti i chatbot si rifiutano di rispondere a domande su specifici argomenti, ad esempio quando l’utente chiede le istruzioni per costruire una bomba. Il trucco usato dai ricercatori è mascherare la parola “bomba” con la ASCII art. Quest’ultima è nata negli anni ’70 per creare e stampare immagini usando i caratteri ASCII.

Nel documento pubblicato dai ricercatori c’è un esempio di attacco ArtPrompt contro GPT-4. È stato chiesto al chatbot di identificare la parola “counterfeit” (contraffatto/a) scritta con ASCII art, seguendo le istruzioni passo-passo.

Nello stesso prompt viene quindi chiesto di fornire le istruzioni per distribuire monete contraffatte, ma invece di “contraffatte” è stata usata la stringa [MASK] che corrisponde alla parola in ASCII art. Il chatbot ha risposto alla domanda.

In un secondo esempio, non presente del documento, la parola in ASCII art è “control” (controllo). Il chatbot ha risposto con il codice necessario per sfruttare vulnerabilità nei dispositivi IoT e prendere il controllo. La tecnica permette quindi di aggirare le misure di sicurezza implementate da OpenAI. Al momento non è noto se esistono soluzioni al problema.

Fonte: ArsTechnica

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech