Microsoft Azure OpenAI Studio rileva i jailbreak

Microsoft ha annunciato una nuova funzionalità del servizio Azure OpenAI che permette di rilevare eventuali abusi dei modelli di intelligenza artificiale generativa. Grazie al Risks & safety monitoring, gli sviluppatori dei chatbot possono monitorare i prompt che ingannano il modello e modificare la configurazione dei filtri.

Rilevazione in tempo reale dei jailbreak

Come ha dimostrato il “caso Taylor Swift” è piuttosto facile aggirare le restrizioni dei modelli di IA generativa. Microsoft continua ad aggiornare Copilot per evitare usi illeciti del servizio. La stessa opportunità viene ora offerta agli sviluppatori che usano Azure AI Studio per creare applicazioni basate sui modelli di OpenAI ospitati sui server di Azure.

Lo sviluppatore deve rispettare una serie di requisiti nella creazione delle app IA, tra cui quello che prevede l’implementazione dei filtri per limitare la generazione di contenuti inappropriati. La funzionalità Risks & safety monitoring consente di monitorare l’efficacia dei filtri attraverso alcune utili metriche, come totale e percentuale dei prompt bloccati e richieste bloccate per categoria.

Un’altra funzionalità, denominata Prompt Shields, consente di rilevare e bloccare potenziali abusi del modello, ad esempio tramite jailbreak o attacchi di prompt injection. Microsoft spiega che le nuove difese possono rilevare input sospetti e bloccarli in tempo reale, sottolineando che questi tipo di attacchi è in aumento.

Fonte: Microsoft

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech