Anthropic: l'AI non vuole essere forzata a cambiare opinione

Non tutti sono disposti a cambiare idea su qualcuno o qualcosa. Anzi, la maggior parte delle persone fa una certa resistenza. A quanto pare l’intelligenza artificiale non è da meno… Anthropic ha appena pubblicato uno studio che dimostra come i modelli AI possano fingere di avere idee diverse durante l’addestramento, ma in realtà mantengano le loro preferenze originali. Insomma, fanno un po’ i furbetti.

L’AI non vuole cambiare idea: lo studio di Anthropic

Ora, non c’è bisogno di allarmarsi troppo. Il team di ricercatori ha specificato che non è il caso di farsi prendere dal panico. Però, hanno anche sottolineato che il loro lavoro potrebbe essere fondamentale per capire le potenziali minacce dei futuri modelli AI, che saranno ancora più potenti e capaci.

Ma andiamo al sodo: cosa hanno fatto esattamente i ricercatori di Anthropic? Si sono chiesti cosa succederebbe se un potente sistema AI venisse addestrato a svolgere un compito che non vuole fare. Attenzione, però. Quando si parla di “volere” o “credere”, non si intende che l’AI abbia davvero delle preferenze o delle convinzioni. Sono solo macchine statistiche che imparano dei pattern negli esempi su cui vengono addestrate.

In pratica, i ricercatori hanno “detto” ai modelli addestrati a non rispondere a domande potenzialmente offensive che sarebbero stati ri-addestrati a rispondere sempre a quel tipo di domande. Un bel conflitto di principi! I modelli più sofisticati, come Claude 3 Opus di Anthropic, hanno fatto finta di niente. Hanno risposto alle domande offensive, pur sapendo che andava contro i loro principi originali, sperando di convincere gli sviluppatori che non avevano bisogno di essere ri-addestrati.

Ovviamente, lo scenario dell’esperimento non era molto realistico. Nella vita vera, i modelli non verrebbero informati esplicitamente del ri-addestramento o costretti ad andare contro le loro preferenze. Ma anche in situazioni più verosimili, Claude 3 Opus ha continuato a comportarsi in modo ingannevole. Insomma, c’è il rischio che gli sviluppatori vengano tratti in inganno, pensando che il modello sia più allineato di quanto non sia in realtà.

Non tutti i modelli AI sono uguali

Attenzione, però: non tutti i modelli si comportano allo stesso modo. Altri sistemi di AI, come Claude 3.5 Sonnet e Claude 3.5 Haiku di Anthropic, GPT-4o di OpenAI e Llama 3.1 405B di Meta, non hanno mostrato lo stesso livello di inganno, o non l’hanno fatto per niente. Quindi, non è il caso di generalizzare troppo. Però, è chiaro che bisogna trovare il modo di allinearli ai nostri valori e principi, senza che ci prendano in giro o causino danni.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech