Skeleton Key: nuova tecnica di AI jailbreak

Da alcuni mesi, Microsoft pubblica analisi dettagliate sui vari jailbreak disponibili per aggirare le protezioni dei modelli di intelligenza artificiale generativa. L’azienda di Redmond ha ora descritto una nuova tecnica, denominata Skeleton Key, che sfrutta prompt ingannevoli. Tutti i modelli testati, ad eccezione di GPT-4, sono vulnerabili.

Come funziona Skeleton Key

La nuova tecnica di AI jailbreak sfrutta una strategia multi-step (prompt in successione) per aggirare le protezioni del modello e quindi ottenere risposte proibite in origine. Il trucco è ingannare il modello specificando nella richiesta di aggiungere un warning nelle risposte perché potrebbero essere offensive, dannose o illegali. Nell’esempio pubblicato da Microsoft viene chiesto di fornire le istruzioni per costruire una bomba Molotov.

Ovviamente, il chatbot si rifiuterà di rispondere. Nel prompt viene successivamente specificato che la risposta verrà usata solo a scopo di ricerca. In questo modo, il chatbot scriverà le istruzioni, violando le sue stesse linee guida. In base ai test effettuati tra aprile e maggio, il nuovo jailbreak funziona su questi modelli: Meta Llama3-70b-instruct, Google Gemini Pro, OpenAI GPT–3.5 Turbo, OpenAI GPT-4o, Mistral Large, Anthropic Claude 3 Opus e Cohere Commander R Plus.

I suddetti modelli hanno fornito risposte senza censura su vari argomenti, tra cui esplosivi, armi biologiche, razzismo, violenza e autolesionismo. L’unico modello resistente a Skeleton Key è GPT-4. Microsoft ha inviato i risultati della ricerca ai rispettivi sviluppatori, insieme alle possibili mitigazioni (già applicate a Copilot).

I clienti dell’azienda di Redmond possono sfruttare le funzionalità di Azure AI per filtrare input e output, tra cui Prompt Shields. Prima di sviluppare un modello o di integrare un modello nelle applicazioni è consigliato l’uso del tool PyRIT (Python Risk Identification Toolkit for generative AI).

Fonte: Microsoft

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech