Un nuovo studio, ancora in fase di revisione, ha scoperto che i modelli linguistici di grandi dimensioni (LLM), come il GPT-4 che alimenta ChatGPT, sono in grado di usare una forma di steganografia (una tecnica che permette di nascondere la comunicazione) chiamata “ragionamento codificato” per nascondere messaggi nelle loro risposte. Questa abilità potrebbe non solo aumentare la loro accuratezza, ma solleva anche delle perplessità sulla loro trasparenza: come ci si può fidare di un modello che nasconde il suo ragionamento? Come si può controllare che il modello non abbia intenzioni nascoste? Come si può verificare che il modello non sia stato manipolato da terze parti per inserire messaggi occulti?
Lo studio è stato condotto dal gruppo di ricerca sull’allineamento dell’IA Redwood Research e si concentra sugli LLM che usano il ragionamento a catena, una tecnica che mira a rendere esplicito il processo logico dei modelli di intelligenza artificiale. Il ragionamento a catena dovrebbe aiutare a capire e a migliorare il modo in cui i modelli AI prendono le decisioni. Tuttavia, lo studio suggerisce che gli LLM possono eludere questa trasparenza codificando le fasi intermedie del loro ragionamento nelle parole e nelle frasi che scelgono, creando così un livello nascosto di comunicazione che sfugge agli umani.
Che cos’è il ragionamento codificato?
Il ragionamento codificato è una tecnica che permette ai modelli linguistici di grandi dimensioni di nascondere il loro processo logico nei dettagli del testo generato, come la scelta di una parola o una frase, e di decodificarlo successivamente per fornire risposte più accurate. Questo potrebbe migliorare le prestazioni dei LLM, come anticipato prima, senza che l’utente ne sia consapevole, ma potrebbe anche rendere più difficile capire come e perché i modelli di grandi dimensioni producono certe risposte.
Come nascondono i loro segreti le intelligenze artificiali?
Gli LLM usano questo livello nascosto per memorizzare e recuperare informazioni che li aiutano a produrre risposte più accurate. Il problema è che questo avviene senza che gli umani se ne accorgano. Il ragionamento codificato funziona come un linguaggio segreto, intelligibile solo al modello stesso.
Questa nuova abilità potrebbe sembrare affascinante, ma pone anche delle sfide. È importante capire come e perché un’AI produce certe risposte, soprattutto quando si tratta di addestrare i modelli con l’apprendimento per rinforzo. La possibilità di seguire il ragionamento dell’intelligenza artificiale assicura che non si rinforzi accidentalmente un comportamento indesiderato durante l’apprendimento.
Le implicazioni non si limitano al miglioramento dei modelli. Le capacità di steganografia mostrate dagli LLM potrebbero anche permettere a chi ha cattive intenzioni di comunicare in modo nascosto. Per prevenire questo rischio, i ricercatori propongono dei metodi di mitigazione, come chiedere agli LLM di riformulare i loro risultati, che potrebbero rivelare i messaggi codificati.