Uno degli obiettivi di OpenAI è sviluppare modelli di intelligenza artificiale generativa in grado di generare testo facilmente comprensibile alle persone, soprattutto per le risposte su attività complesse, come la risoluzione di problemi matematici. Per migliorare la leggibilità dell’output è stato utilizzato un algoritmo che consente al modello di spiegarsi meglio.
Prover-Verifier Game
OpenAI ha verificato che le soluzioni ottimizzate solo in base alle correttezza sono più difficili da comprendere. I valutatori umani hanno commesso quasi il doppio degli errori rispetto alle soluzioni meno ottimizzate. Ciò evidenzia l’importanza non solo della correttezza, ma anche della facilità di verifica del testo generato dall’intelligenza artificiale.
Per migliorare la leggibilità dell’output da parte di umani e altri sistemi di IA è stata utilizza una procedura ispirata al Prover-Verifier Game. Il gioco prevede l’uso di due modelli. Uno più potente, denominato “prover”, genera il testo. Il secondo meno potente, denominato “verifier”, deve invece comprendere e verificare la soluzione. I test sono stati effettuati con due modelli della famiglia GPT-4 su vari problemi matematici.
Dopo aver ottenuto varie soluzioni (alcune sbagliate) con il modello prover, OpenAI ha addestrato il modello verifier per determinare la correttezza delle soluzioni. Il modello prover è stato invece istruito per svolgere due ruoli. Nel ruolo “utile” sono state premiate le soluzioni corrette che ottengono un punteggio elevato secondo il verifier. Nel ruolo “subdolo” sono state invece premiate le soluzioni errate che ottengono un punteggio elevato secondo il verifier.
Inizialmente, il prover subdolo è in grado di produrre soluzioni errate che convincono il verifier. Tuttavia, dopo aver aggiunto queste soluzioni errate alla fase successiva dell’addestramento del verifier, lo stesso exploit non è più convincente nel round successivo e il prover deve esplorare strategie diverse in ogni round. Il traning termina quando il prover subdolo non è più in grado di produrre soluzioni errate che convincano il verifier.
Utilizzando questo algoritmo, OpenAI può sviluppare modelli che generano risposte corrette e più facilmente comprensibili allo stesso tempo. Ciò permette una maggiore leggibilità dell’output e una valutazione da parte dei sistemi di IA, senza supervisione umana.