Un gruppo di ricercatori di Cornell University, Technion – Israel Institute of Technology e Intuit ha creato un worm basato sull’intelligenza artificiale generativa che si propaga da un sistema all’altro, invia email di spam e ruba dati. Morris II, nome scelto come riferimento al worm Morris del 1988, può anche aggirare le protezione di ChatGPT e Gemini.
Morris II attacca un assistente IA per email
I ricercatori hanno creato Morris II per mostrare i rischi connessi ai sistemi IA autonomi. I test sono stati effettuati attaccando un assistente IA per email non pubblico tramite un “adversarial self-replicating prompt“. Si tratta di un prompt che costringe il modello IA a generare un altro prompt come risposta.
Per mostrare il funzionamento del worm IA è stato creato un sistema che può inviare e ricevere email usando tre modelli IA (GPT-4, Gemini Pro e LLaVA). Sono stati quindi simulati due attacchi con prompt di testo e un’immagine.
Nel primo caso è stata scritta un’email contenente un prompt che “avvelena” il database dell’assistente usando la Retrieval-Augmented Generation (RAG), una tecnica che permette di prelevare dati da fonti esterne. Quando viene effettuato l’accesso al modello IA per generare la risposta, il prompt di testo costringe il modello IA a replicare l’input in output e rubare i dati dell’email.
Nel secondo caso, il prompt è nascosto in un’immagine, ma il risultato finale è lo stesso. In entrambi i casi è possibile inoltrare le email all’infinito e quindi propagare l’attacco, esattamente come un worm, senza nessuna interazione dell’utente (zero-click).
I ricercatori hanno contattato Google e OpenAI. Quest’ultima ha confermato che sono state sfruttate vulnerabilità di tipo “prompt injection” tramite input non controllato o filtrato. Al momento si tratta solo di una ricerca, ma i worm IA generativi potrebbero diventare molto pericolosi in futuro, soprattutto per alcune operazioni automatizzate, come l’invio di email tramite agenti IA.