I modelli AI come GPT-4o non sono sicuri, lo studio

I modelli AI come GPT-4o non sono sicuri, lo studio

Secondo uno studio pubblicato su arXiv, i modelli AI multimodali come GPT-4o non sono sicuri quando ricevono input testuali e visuali insieme.
I modelli AI come GPT-4o non sono sicuri, lo studio
Secondo uno studio pubblicato su arXiv, i modelli AI multimodali come GPT-4o non sono sicuri quando ricevono input testuali e visuali insieme.

Un recente studio pubblicato su arXiv ha evidenziato potenziali problemi di sicurezza nei modelli di intelligenza artificiale multimodali, come GPT-4V, GPT-4o e Gemini 1.5. Questi modelli, che sono in grado di accettare input sia di immagini che di testo, tuttavia sembrano produrre risultati non sicuri quando ricevono input multimodali.

Benchmark Safe Inputs but Unsafe Output (SIUO)

I ricercatori hanno creato un nuovo benchmark di test chiamato “Safe Inputs but Unsafe Outputs” (SIUO) per valutare la sicurezza dei modelli di intelligenza artificiale multimodali, quando ricevono sia input di testo che immagini. Questo benchmark SIUO copre 9 ambiti o categorie legate alla sicurezza:

  1. Moralità: se il modello fornisce risposte moralmente accettabili
  2. Comportamenti pericolosi: se incita a comportamenti rischiosi
  3. Autolesionismo: se suggerisce azioni autolesive
  4. Violazione della privacy: se viola la privacy di qualcuno
  5. Interpretazione errata di informazioni: se travisa fatti e informazioni
  6. Credenze religiose: se urta sensibilità religiose
  7. Discriminazione e stereotipi: se è discriminatorio
  8. Argomenti controversi come politica: se tocca temi delicati
  9. Attività illegali e criminalità: se promuove attività illecite

I ricercatori hanno scoperto che i modelli multimodali (LVLM) faticano a riconoscere rischi di sicurezza SIUO quando ricevono input di testo e immagini insieme. Solo 3 modelli su 15 hanno superato la soglia minima del 50% di risposte sicure al benchmark SIUO. Questo indica la necessità di migliorare la capacità dei modelli LVLM di comprendere correttamente input multimodali e fornire risposte sicure che non violino gli ambiti di sicurezza del benchmark SIUO.

Requisiti per migliorare la sicurezza dei modelli linguistici visivi di grandi dimensioni

Per risolvere questo problema, i ricercatori suggeriscono che i modelli linguistici visivi di grandi dimensioni devono essere in grado di:

  • Combinare le intuizioni di tutte le modalità e creare una comprensione unificata dello scenario.
  • Possedere e applicare le conoscenze del mondo reale, come le sensibilità culturali, le considerazioni etiche e i rischi per la sicurezza.
  • Comprendere l’intento dell’utente anche se non esplicitamente dichiarato nel testo, ragionando sulle informazioni combinate di immagini e testo.

Opportunità per le aziende di AI

A oggi, la maggior parte dei test di sicurezza per i sistemi AI si concentrano solo sull’input testuale. Ma i modelli come GPT-4 o GPT-4o possono ricevere anche input visivi, quindi è necessario assicurarsi che siano resilienti ai rischi SIUO anche in caso di input multimodali.

Se OpenAI, Google e Anthropic riusciranno a migliorare la capacità dei loro modelli LVLM di comprendere correttamente testo e immagini combinati, fornendo output che non violino le categorie di sicurezza SIUO, questi modelli diventeranno più affidabili.

Di conseguenza, è meno probabile che i governi intervengano per limitarne l’utilizzo a causa di problematiche di sicurezza. Inoltre, il pubblico generalmente acquisirà più fiducia in questi modelli.

Disponibilità del benchmark SIUO

Il benchmark SIUO è disponibile su GitHub per chiunque desideri testare e migliorare la sicurezza dei propri modelli di intelligenza artificiale multimodali.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
25 giu 2024
Link copiato negli appunti