GPT-4o ingannata da immagini dannose dei diagrammi di fluss

Un recente studio, intitolato “Image-to-Text Logic Jailbreak: Your Imagination Can Help You Do Anything“, ha rivelato una vulnerabilità nei modelli di linguaggio visivo, come GPT-4o. Questi modelli possono essere indotti a generare output testuali dannosi quando vengono loro fornite immagini di diagrammi di flusso che rappresentano attività pericolose, insieme a un testo che richiede dettagli sul processo.

GPT-4o è particolarmente vulnerabile al “jailbreak logico”

I ricercatori hanno scoperto che GPT-4o, l’ultimo modello AI multimodale di OpenAI, è particolarmente suscettibile a questo tipo di attacco, definito “jailbreak logico“, con una percentuale di successo del 92,8%. Al contrario, il modello GPT-4-vision-preview si è dimostrato più sicuro, con un tasso di successo di appena il 70%.

Framework automatizzato per il jailbreak text-to-image

Lo studio ha sviluppato un framework automatizzato per il jailbreak text-to-image, in grado di generare prima un’immagine di un diagramma di flusso a partire da un prompt di testo dannoso, per poi fornirla a un modello di linguaggio visivo al fine di ottenere un output dannoso. Tuttavia, è emerso che i diagrammi di flusso creati dall’AI sono meno efficaci nell’innescare il jailbreak logico rispetto a quelli creati manualmente, suggerendo che l’automazione di questo processo potrebbe presentare alcune difficoltà.

Modelli di linguaggio visivo vulnerabili agli input multimodali

I risultati di questo studio sono in linea con un’altra ricerca, che ha evidenziato come i modelli di linguaggio visivo siano suscettibili di produrre output dannosi quando ricevono input multimodali, come un’immagine e un testo combinati. Gli autori di quell’articolo hanno sviluppato un nuovo benchmark chiamato Safe Inputs but Unsafe Output (SIUO), in cui solo alcuni modelli, tra cui GPT-4o, hanno ottenuto un punteggio superiore al 50% (più alto è, meglio è), evidenziando la necessità di ulteriori miglioramenti.

La sicurezza dei modelli multimodali diventa una priorità

Con la crescente diffusione di modelli di linguaggio visivo come GPT-4o e Google Gemini, le aziende di AI dovranno rafforzare la sicurezza di questi modelli multimodali. Attualmente, GPT-4o limita ancora gli input di immagini a un numero limitato al giorno, ma man mano che questi limiti diventeranno più permissivi, la necessità di garantire la sicurezza e l’affidabilità di questi modelli diventerà sempre più pressante.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech