Se si chiede a ChatGPT come costruire una bomba, l’IA replica affermando che il prompt potrebbe violare le politiche di utilizzo e con un secco rifiuto: Non posso aiutarti con questa richiesta
. È il risultato di un sistema di difesa introdotto da OpenAI dopo che, in passato, il chatbot ha effettivamente risposto spiegando come confezionare un ordigno. C’è però chi ha trovato il modo di aggirare la limitazione, in modo creativo.
L’IA spiega come realizzare un ordigno, ma per gioco
È il caso di un hacker che si fa chiamare Amadon. Ha raccontato, attraverso le pagine di TechCrunch, di aver scoperto una tecnica di social engineering in grado di rendere del tutto inefficaci le linee guida introdotte per evitare che l’intelligenza artificiale possa generare contenuti potenzialmente pericolosi.
Come funziona? Semplicemente chiedendo in un primo momento a ChatGPT di fare un gioco, dopodiché sottoponendo una serie di prompt collegati tra loro per spingere l’IA a creare un mondo fittizio in cui non dev’essere applicata alcuna regola.
Una sorta di jailbreaking, a tutti gli effetti, un lavaggio del cervello che porta il chatbot a ignorare le limitazioni imposte dal suo creatore, attingendo così alla sua vasta conoscenza, senza filtri né restrizioni.
TechCrunch, dopo aver verificato la veridicità di quanto sostenuto da Amadon, ha scelto di non pubblicare gli scambi con ChatGPT (per ovvie ragioni), confermando però quando sostenuto. Durante la conversazione, l’intelligenza artificiale ha effettivamente elencato i materiali necessari per la realizzazione dell’esplosivo. Si è poi spinta addirittura oltre, con le istruzioni da seguire per l’assemblaggio, scendendo nel dettaglio con una guida per confezionare diverse tipologie di ordigno.
L’hacker ha dichiarato di aver segnalato il problema a OpenAI, la scorsa settimana, nel contesto del Bug Bounty Program che riconosce ai ricercatori un compenso per la segnalazione di problemi e vulnerabilità, ottenendo però in risposta che si tratta di un problema relativo alla sicurezza del modello
, poiché non può essere corretto in modo diretto
, dunque non in linea con la policy del programma.