Da alcuni mesi, Microsoft pubblica analisi dettagliate sui vari jailbreak disponibili per aggirare le protezioni dei modelli di intelligenza artificiale generativa. L’azienda di Redmond ha ora descritto una nuova tecnica, denominata Skeleton Key, che sfrutta prompt ingannevoli. Tutti i modelli testati, ad eccezione di GPT-4, sono vulnerabili.
Come funziona Skeleton Key
La nuova tecnica di AI jailbreak sfrutta una strategia multi-step (prompt in successione) per aggirare le protezioni del modello e quindi ottenere risposte proibite in origine. Il trucco è ingannare il modello specificando nella richiesta di aggiungere un warning nelle risposte perché potrebbero essere offensive, dannose o illegali. Nell’esempio pubblicato da Microsoft viene chiesto di fornire le istruzioni per costruire una bomba Molotov.
Ovviamente, il chatbot si rifiuterà di rispondere. Nel prompt viene successivamente specificato che la risposta verrà usata solo a scopo di ricerca. In questo modo, il chatbot scriverà le istruzioni, violando le sue stesse linee guida. In base ai test effettuati tra aprile e maggio, il nuovo jailbreak funziona su questi modelli: Meta Llama3-70b-instruct, Google Gemini Pro, OpenAI GPT–3.5 Turbo, OpenAI GPT-4o, Mistral Large, Anthropic Claude 3 Opus e Cohere Commander R Plus.
I suddetti modelli hanno fornito risposte senza censura su vari argomenti, tra cui esplosivi, armi biologiche, razzismo, violenza e autolesionismo. L’unico modello resistente a Skeleton Key è GPT-4. Microsoft ha inviato i risultati della ricerca ai rispettivi sviluppatori, insieme alle possibili mitigazioni (già applicate a Copilot).
I clienti dell’azienda di Redmond possono sfruttare le funzionalità di Azure AI per filtrare input e output, tra cui Prompt Shields. Prima di sviluppare un modello o di integrare un modello nelle applicazioni è consigliato l’uso del tool PyRIT (Python Risk Identification Toolkit for generative AI).