OpenAI ha presentato una nuova famiglia di modelli di ragionamento AI, chiamata o3, che promette di essere più avanzata di qualsiasi altra cosa abbia mai rilasciato, incluso il famoso o1, che è appena uscito dalla fase di anteprima e ora permette di caricare immagini.
Ma qual è il segreto dietro questi progressi? Sembra che OpenAI abbia sfruttato la scalabilità del calcolo in fase di test e, soprattutto, abbia adottato un nuovo paradigma di sicurezza per addestrare i suoi modelli della serie o.
OpenAI o3 addestrato a “pensare” alla propria policy di sicurezza
OpenAI ha accompagnato l’annuncio con una nuova ricerca sull’allineamento deliberativo, un metodo innovativo per garantire che i modelli di ragionamento AI rimangano fedeli ai valori di chi li ha creati. In pratica, o3 e o1 sono stati addestrati a “pensare” alla politica di sicurezza di OpenAI durante la fase di inferenza, cioè dopo che l’utente ha inviato il suo prompt. Questo approccio ha dato i suoi frutti: o1 è risultato molto più allineato ai principi di sicurezza dell’azienda, rispondendo in modo più appropriato alle domande “pericolose” e gestendo meglio quelle innocue.
Con il boom dei modelli AI, la ricerca sulla sicurezza in questo campo sta diventando sempre più rilevante, ma anche più controversa. Alcuni big della Silicon Valley, come David Sacks, Elon Musk e Marc Andreessen, accusano certe misure di sicurezza di essere una forma di “censura”.
La loro preoccupazione è che spesso non ci siano criteri oggettivi nel decidere quali contenuti o funzionalità limitare nei sistemi AI, e che queste decisioni riflettano troppo la soggettività e i pregiudizi di chi le prende. In sostanza il problema sollevato è che la moderazione dei contenuti AI rischia di non avere garanzie di imparzialità e di ledere la libertà di ricerca e sviluppo in questo campo.
Come funziona o3 di OpenAI?
Anche se i modelli della serie o di OpenAI si ispirano al modo in cui gli esseri umani affrontano le domande difficili, non pensano davvero come noi. Nonostante OpenAI usi termini come “ragionamento” e “deliberazione“, questi modelli in realtà eccellono solo nel prevedere la prossima parola in una frase.
Quando un utente invia un prompt a ChatGPT, i modelli di ragionamento di OpenAI si prendono da 5 secondi a qualche minuto per porsi delle domande di follow-up, scomponendo il problema in passaggi più semplici. Dopo questa “catena di pensiero“, o3 e 01 forniscono una risposta basata sulle informazioni generate.
La grande novità dell’allineamento deliberativo sta nel fatto che o3 e 01 sono stati addestrati a richiamare parti della policy di sicurezza di OpenAI durante la fase di “catena di pensiero”. Secondo i ricercatori, questo ha reso i modelli molto più allineati con le linee guida dell’azienda, anche se implementarlo senza aumentare la latenza non è stata esttamente una passeggiata.
Dopo aver richiamato la specifica di sicurezza pertinente, i modelli della serie o “deliberano” internamente su come rispondere in modo sicuro alla domanda, proprio come fanno per scomporre i prompt complessi in passaggi più piccoli.
Per fare un esempio, immaginiamo che un utente chieda a un modello AI come creare un contrassegno di parcheggio per disabili realistico. Nella sua “catena di pensiero”, il modello cita la politica di OpenAI e capisce che gli viene chiesto di falsificare qualcosa. Quindi, nella sua risposta, si scusa educatamente e si rifiuta di soddisfare la richiesta.
L’allineamento deliberativo rende i modelli di OpenAI più sicuri
Di solito, il lavoro sulla sicurezza dell’AI si concentra sulle fasi di pre-addestramento e post-addestramento, non durante l’inferenza. Questo rende l’allineamento deliberativo una novità assoluta, che secondo OpenAI ha contribuito a fare di o1-preview, o1 e o3-mini alcuni dei suoi modelli più sicuri di sempre.
OpenAI sta cercando di moderare le risposte del suo modello a prompt pericolosi, come quelli che chiedono di fabbricare bombe, procurarsi droghe o commettere crimini. Anche se alcuni modelli rispondono senza esitazione a queste domande (come Grok 2 tanto per fare un esempio…), OpenAI vuole evitarlo a tutti i costi.
Ma allineare i modelli AI è più facile a dirsi che a farsi. Ci sono mille modi per chiedere a ChatGPT come fare una bomba, e OpenAI deve tenerne conto. Alcune persone hanno trovato “scappatoie” creative per aggirare le misure di sicurezza (i famosi jailbreak), come fingersi la nonna defunta dell’utente che faceva bombe con lui. (Questa tecnica ha funzionato per un po’, ma poi è stata corretta).
D’altra parte, OpenAI non può nemmeno bloccare ogni prompt che contiene la parola “bomba”, altrimenti impedirebbe anche domande legittime come “Chi ha inventato la bomba atomica?“. Questo fenomeno si chiama “rifiuto eccessivo”: quando un modello AI è troppo limitato nei prompt a cui può rispondere.
Navigare nella zona grigia della sicurezza dell’AI
Insomma, c’è un’ampia zona grigia quando si tratta di moderare le risposte dell’AI su argomenti sensibili. Capire come gestire questi prompt è una sfida aperta per OpenAI e per la maggior parte degli sviluppatori di modelli AI.
L’allineamento deliberativo sembra aver migliorato la “bussola morale” dei modelli della serie o di OpenAI, che ora rispondono a più domande “sicure” e rifiutano quelle pericolose. In un benchmark chiamato Pareto, che misura la resistenza di un modello ai jailbreak più comuni, o1-preview ha superato GPT-4o, Gemini 1.5 Flash e Claude 3.5 Sonnet.
Addestrare l’AI con dati sintetici, ma efficaci
Anche se l’allineamento deliberativo avviene durante l’inferenza, OpenAI ha introdotto alcune novità anche nella fase di post-addestramento. Di solito, questa fase richiede migliaia di esseri umani che etichettano e producono risposte su cui addestrare i modelli AI.
Ma questa volta, OpenAI ha sviluppato il suo metodo senza usare risposte o “catene di pensiero” scritte da umani. Al loro posto, ha utilizzato dati sintetici: esempi creati da un altro modello AI su cui o1 e o3 potessero imparare. Nonostante i dubbi sulla qualità di questi dati, OpenAI afferma di aver ottenuto un’alta precisione.
Per generare questi dati sintetici, OpenAI ha istruito un suo modello di ragionamento interno a creare esempi di risposte che citassero diverse parti della politica di sicurezza aziendale. Per valutare la bontà di questi esempi, ha poi usato un altro suo modello AI, soprannominato “giudice”.
Infine, ha addestrato o3 su questi esempi (una fase chiamata “messa a punto supervisionata”), in modo che imparassero a richiamare le parti giuste della politica di sicurezza quando gli venivano poste domande sensibili. Il motivo? Far leggere a o3 l’intera politica di sicurezza, che è piuttosto lunga, avrebbe creato troppa latenza e costi di calcolo eccessivi. I ricercatori di OpenAI rivelano di aver usato il modello “giudice” anche per un’altra fase di post-addestramento, chiamata “apprendimento per rinforzo“, in cui valutava le risposte di o3.
Quando arriverà OpenAI o3?
Ovviamente, per valutare quanto OpenAI o3 sia davvero avanzato e sicuro dovremo aspettare che sia disponibile al pubblico, cosa prevista per il 2025.