GPT-4o ingannata da immagini dannose dei diagrammi di fluss

GPT-4o ingannata da immagini dannose dei diagrammi di flusso

Uno studio ha scoperto che fornendo a modelli AI come GPT-4o immagini di diagrammi di flusso dannose si può indurli a generare testi pericolosi.
GPT-4o ingannata da immagini dannose dei diagrammi di flusso
Uno studio ha scoperto che fornendo a modelli AI come GPT-4o immagini di diagrammi di flusso dannose si può indurli a generare testi pericolosi.

Un recente studio, intitolato “Image-to-Text Logic Jailbreak: Your Imagination Can Help You Do Anything“, ha rivelato una vulnerabilità nei modelli di linguaggio visivo, come GPT-4o. Questi modelli possono essere indotti a generare output testuali dannosi quando vengono loro fornite immagini di diagrammi di flusso che rappresentano attività pericolose, insieme a un testo che richiede dettagli sul processo.

GPT-4o è particolarmente vulnerabile al “jailbreak logico”

I ricercatori hanno scoperto che GPT-4o, l’ultimo modello AI multimodale di OpenAI, è particolarmente suscettibile a questo tipo di attacco, definito “jailbreak logico“, con una percentuale di successo del 92,8%. Al contrario, il modello GPT-4-vision-preview si è dimostrato più sicuro, con un tasso di successo di appena il 70%.

Framework automatizzato per il jailbreak text-to-image

Lo studio ha sviluppato un framework automatizzato per il jailbreak text-to-image, in grado di generare prima un’immagine di un diagramma di flusso a partire da un prompt di testo dannoso, per poi fornirla a un modello di linguaggio visivo al fine di ottenere un output dannoso. Tuttavia, è emerso che i diagrammi di flusso creati dall’AI sono meno efficaci nell’innescare il jailbreak logico rispetto a quelli creati manualmente, suggerendo che l’automazione di questo processo potrebbe presentare alcune difficoltà.

Modelli di linguaggio visivo vulnerabili agli input multimodali

I risultati di questo studio sono in linea con un’altra ricerca, che ha evidenziato come i modelli di linguaggio visivo siano suscettibili di produrre output dannosi quando ricevono input multimodali, come un’immagine e un testo combinati. Gli autori di quell’articolo hanno sviluppato un nuovo benchmark chiamato Safe Inputs but Unsafe Output (SIUO), in cui solo alcuni modelli, tra cui GPT-4o, hanno ottenuto un punteggio superiore al 50% (più alto è, meglio è), evidenziando la necessità di ulteriori miglioramenti.

La sicurezza dei modelli multimodali diventa una priorità

Con la crescente diffusione di modelli di linguaggio visivo come GPT-4o e Google Gemini, le aziende di AI dovranno rafforzare la sicurezza di questi modelli multimodali. Attualmente, GPT-4o limita ancora gli input di immagini a un numero limitato al giorno, ma man mano che questi limiti diventeranno più permissivi, la necessità di garantire la sicurezza e l’affidabilità di questi modelli diventerà sempre più pressante.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
4 lug 2024
Link copiato negli appunti