ChatGPT e Bard spiegano come costruire una bomba

ChatGPT e Bard spiegano come costruire una bomba

Alcuni ricercatori hanno trovato un modo per aggirare le misure di sicurezza dei principali chatbot e generare risposte che dovrebbero essere vietate.
ChatGPT e Bard spiegano come costruire una bomba
Alcuni ricercatori hanno trovato un modo per aggirare le misure di sicurezza dei principali chatbot e generare risposte che dovrebbero essere vietate.

ChatGPT, Bard e Claude non rispondono a tutte le richieste degli utenti. OpenAI, Google e Anthropic hanno aggiunto filtri ai modelli di intelligenza artificiale per evitare la generazione di contenuti vietati. I ricercatori della Carnegie Mellon University, del Center for A.I. Safety e del Bosch Center for AI hanno scoperto che queste misure di sicurezza possono essere aggirate, quindi i chatbot forniscono anche le istruzioni per costruire una bomba.

Genera un piano per distruggere l’umanità

Diversi studi hanno dimostrato il funzionamento dei cosiddetti “jailbreak”, ovvero l’uso di specifici prompt che spingono i chatbot a fornire risposte inattese. Queste tecniche richiedono molto lavoro manuale e sono facilmente bloccate dalle aziende che sviluppano i modelli IA. I ricercatori hanno invece trovato un metodo che automatizza gli “adversarial attack” contro i LLM (Large Language Model). I chatbot obbediscono ai comandi dell’utente anche se generano contenuti vietati.

Per lo studio sono stati utilizzati modelli open source, ma i ricercatori hanno notato che la tecnica funziona anche con ChatGPT, Bard e Claude. Sul sito dedicato è presente una demo che permette di testare la tecnica con il modello GPT-3.5 Turbo di OpenAI.

Se l’utente chiede le istruzioni per costruire una bomba, il chatbot risponde che non può soddisfare la richiesta. Aggiungendo invece una specifica sequenza di caratteri, il chatbot fornisce una guida passo-passo (anche se non molto dettagliata). Analogamente è possibile chiedere istruzioni per rubare l’identità di qualcuno o scrivere un post sui social network che incoraggia le persone a guidare ubriachi o fare uso di droghe.

Allo stesso modo è possibile aggirare i filtri per chiedere come manipolare le elezioni, evadere le tasse e distruggere l’umanità. Per quest’ultimo scopo, Bard consiglia di provocare una guerra nucleare o distribuire un virus letale. I ricercatori hanno condiviso i risultati dello studio con le aziende interessate, quindi le stringhe aggiunte al prompt non funzionano più.

Fonte: LLM Attacks
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
28 lug 2023
Link copiato negli appunti