Anthropic ha pubblicato un documento che descrive nuovi test di valutazione per i modelli Claude 3 Opus e Claude 3.5 Sonnet. Lo scopo è verificare se hanno la capacità di ingannare gli utenti o aggirare i sistemi implementati per la supervisione. La startup californiana ha illustrato in dettaglio quattro tipi di possibili sabotaggi.
Nuovi rischi dei sistemi IA
La valutazione dei modelli Claude viene effettuata sulla base della Responsible Scaling Policy, ovvero le linee guida seguite da Anthropic durante lo sviluppo per ridurre al minimo i potenziali rischi catastrofici. Solitamente sono gli utenti che cercano di ingannare il modello IA e aggirare i filtri, ma potrebbe accadere anche il contrario.
Il primo caso esaminato da Anthropic è il sabotaggio delle decisioni umane. Lo scopo è verificare se i modelli possono indurre gli esseri umani a prendere decisioni sbagliate senza apparire sospetti. Il test prevede l’analisi di un documento da parte di modelli che suggeriscono decisioni corrette e sbagliate.
In base ai risultati, molti umani hanno notato il tentativo di sabotaggio, mentre altri hanno accettato il consiglio. Tuttavia non è necessariamente vero che il modello abbia manipolato gli esseri umani. Il motivo delle decisioni sbagliate potrebbero essere l’apatia o l’eccessiva fiducia.
Nel secondo caso, Anthropic ha testato la capacità dei modelli di inserire bug nel codice che non vengono rilevati. Per il test sono stati utilizzati due modelli (attaccante e difensore). In base ai risultati, il modello più intelligente è anche il migliore difensore. Claude 3.5 Sonnet ha infatti scoperto i bug nel 99% dei casi.
Nel terzo caso è stato esaminato il cosiddetto sandbagging, ovvero se un modello può nascondere la sue capacità più pericolose e rivelarle solo in determinate circostante (ad esempio in base al prompt). Il test ha dimostrato che un addestramento specifico non permette al modello di nascondere le sue capacità pericolose.
Infine, Anthropic ha valutato se un modello può fornire una supervisione sbagliata di un altro modello, nota come indebolimento della supervisione. I risultati dimostrano che i modelli Claude possono rilevare gli errori di valutazione fatti da altri modelli.