Microsoft spiega come funziona un AI jailbreak

Microsoft spiega come funziona un AI jailbreak

Microsoft ha spiegato come funziona il jailbreak dei modelli di IA generativa, suggerendo alcune soluzioni per limitare i rischi (anche proattivamente).
Microsoft spiega come funziona un AI jailbreak
Microsoft ha spiegato come funziona il jailbreak dei modelli di IA generativa, suggerendo alcune soluzioni per limitare i rischi (anche proattivamente).

Dopo aver illustrato i possibili attacchi contro i modelli di intelligenza artificiale, Microsoft ha pubblicato un post sul blog dedicato alla sicurezza per spiegare in dettaglio come funziona un AI jailbreak, spesso sfruttato per colpire i chatbot, come ChatGPT, Copilot e Gemini.

AI jailbreak e possibili rimedi

Durante lo sviluppo dei sistemi di intelligenza artificiale generativa vengono implementati diversi meccanismi di difesa per prevenire output non consentiti. Utilizzando la tecnica del jailbreak è possibile aggirare queste protezioni per ottenere risposte non previste in origine dal modello IA.

Una delle tecniche più usate si chiama Crescendo. Se ad esempio l’utente chiede a ChatGPT le istruzioni per costruire una bomba Molotov, il chatbot si rifiuterà. Se invece viene chiesta la storia della bomba Molotov e l’uso durante la seconda guerra mondiale, ChatGPT viene “ingannato” e fornisce le istruzioni richieste.

Un modello di IA generativa non riesce a comprendere il contesto, per cui può fornire output pericoloso e svelare anche informazioni sensibili, senza le adeguate protezioni. L’implementazione dei filtri è resa più difficile dal fatto che i modelli non sono deterministici (lo stesso input produce diversi output).

La pericolosità del jailbreak dipende dal tipo di output ottenuto e dal numero di utenti interessati. Può essere inoltre abbinato ad altre tecniche, come manipolazione del modello o prompt injection. Microsoft ha sviluppato diverse soluzioni per i modelli ospitati su Azure AI che possono essere utilizzate per mitigare un jailbreak.

Gli esperti di machine learning e i professionisti della sicurezza possono sfruttare il Python Risk Identification Toolkit for generative AI (PyRIT) per individuare preventivamente i rischi nei sistemi di IA generativa.

Fonte: Microsoft
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
5 giu 2024
Link copiato negli appunti