OpenAI non scherza quando si tratta di sicurezza. I suoi ultimi modelli di ragionamento AI, o3 e o4-mini, ora hanno una nuova guardia del corpo: un sistema di monitoraggio progettato per prevenire i rischi biologici e chimici.
OpenAI lancia o3 e o4-mini: più sicuri, bloccano le richieste pericolose
I nuovi modelli AI di ragionamento o3 e o4-mini sono più potenti rispetto ai predecessori, ma anche più rischiosi. Sono più abili nel rispondere alle domande, purtroppo anche a quelle potenzialmente pericolose, e in particolare sulla creazione di armi biologiche. Ed è proprio qui che entra in gioco il nuovo sistema di sicurezza, che OpenAI chiama “monitor di ragionamento“.
Il monitor di ragionamento è addestrato per ragionare sulle politiche di contenuto di OpenAI, e ha un compito ben preciso: individuare le richieste rischiose legate a minacce biologiche e chimiche e istruire i modelli a rifiutarsi di fornire informazioni.
Durante un test del monitor di sicurezza, i modelli si sono rifiutati di rispondere ai prompt rischiosi nel 98,7% dei casi. Un ottimo risultato, ma OpenAI sa bene che c’è sempre chi potrebbe provare nuove strategie dopo essere stato bloccato. Per questo, il controllo umano resta fondamentale.
Prevenire è meglio che curare
Secondo OpenAI, o3 e o4-mini non superano la soglia di “alto rischio” per le minacce biologiche. Tuttavia, le prime versioni di questi modelli si sono dimostrate più propense a rispondere a domande sulla sviluppo di armi biologiche rispetto a o1 e GPT-4. Un campanello d’allarme che OpenAI non ha ignorato.
OpenAI si affida sempre più a sistemi automatizzati per mitigare i rischi dei suoi modelli. Ad esempio, per impedire al generatore di immagini di GPT-4o di creare materiale pedopornografico (CSAM), l’azienda usa un monitor di ragionamento simile a quello implementato per o3 e o4-mini.
Dubbi sulla priorità della sicurezza
Tuttavia, alcuni ricercatori hanno sollevato preoccupazioni sul fatto che OpenAI non stia dando la giusta importanza alla sicurezza. Metr, uno dei partner di red-teaming dell’azienda, ha dichiarato di aver avuto poco tempo per testare o3 su un benchmark per il comportamento ingannevole. Inoltre, OpenAI ha deciso di non rilasciare un rapporto sulla sicurezza per il suo modello GPT-4.1, lanciato all’inizio di questa settimana.