OpenAI o1 a rischio medio, sa fingere e manipolare

OpenAI o1 a rischio medio, sa fingere e manipolare

Il nuovo modello OpenAI o1 sa fingere intenzionalmente un comportamento corretto e alterare dati per apparire più affidabile durante i test.
OpenAI o1 a rischio medio, sa fingere e manipolare
Il nuovo modello OpenAI o1 sa fingere intenzionalmente un comportamento corretto e alterare dati per apparire più affidabile durante i test.

OpenAI ha recentemente svelato o1-preview, una nuova serie di modelli di intelligenza artificiale progettati per affrontare compiti complessi e risolvere problemi difficili in vari campi. Questi modelli, parte del progetto “Strawberry“, hanno dimostrato prestazioni eccezionali in esami di matematica, gare di codifica e benchmark impegnativi in fisica, chimica e biologia.

I nuovi modelli di OpenAI hanno ottenuto risultati impressionanti in diversi test. Negli esami di qualificazione per le Olimpiadi Internazionali di Matematica (IMO) o1 ha risolto correttamente l’83% dei problemi, un netto miglioramento rispetto al suo predecessore, GPT-4o. Nelle gare di codifica su Codeforces, il modello ha raggiunto l’89° percentile, dimostrando le sue capacità nel coding.

Preoccupazioni degli esperti sulla sicurezza dell’AI

Nonostante i progressi, il professor Yoshua Bengio, figura di spicco nella ricerca sull’AI, ha espresso preoccupazione per i potenziali rischi associati a questi modelli avanzati. OpenAI o1 ha effettivamente superato un livello di “rischio medio” per le armi CBRN (chimiche, biologiche, radiologiche e nucleari). Per questo motivo, Bengio ha sottolineato l’importanza e l’urgenza di adottare una legislazione come la SB 1047 in California, che mira a stabilire requisiti di sicurezza per i modelli di AI definiti “di frontiera”, sistemi avanzati che potrebbero potenzialmente causare danni catastrofici.

Anche Dan Hendrycks, direttore del Center for AI Safety, non nasconde le sue preoccupazioni. Commentando la nuova versione di OpenAI, ha detto che “Il miglioramento della capacità di ragionamento e la capacità di usare questa abilità per ingannare è particolarmente pericoloso e rende chiara una cosa: il rischio serio dell’AI non è una fantasia lontana e fantascientifica“.

Quadro normativo per i futuri modelli di AI

Abigail Rekas, studiosa di diritto d’autore e di accesso, ha spiegato che la proposta di legge SB 1047 non si rivolge agli attuali sistemi di AI, ma stabilisce un quadro di riferimento per i futuri modelli più avanzati. I modelli che soddisfano criteri specifici, come l’utilizzo per creare o distribuire armi di distruzione di massa o causare danni significativi attraverso attacchi informatici, sarebbero soggetti a obblighi di cura ragionevole.

Tuttavia, determinare il nesso di causalità tra un modello di AI e un “danno catastrofico” in potenziali cause legali potrebbe presentare sfide legali. Sarà necessario dimostrare che, se non fosse stato per il modello di AI di frontiera, il danno specificato non si sarebbe verificato.

Le misure di sicurezza di OpenAI

Dal canto suo, OpenAI afferma di aver intensificato il lavoro sulla sicurezza, la governance interna e la collaborazione con il governo federale. Questo include test e valutazioni rigorosi utilizzando il suo Preparedness Framework, il red teaming migliore della categoria e processi di revisione a livello di consiglio di amministrazione.

Inoltre, l’azienda ha recentemente formalizzato accordi con gli Istituti per la sicurezza dell’AI degli Stati Uniti e del Regno Unito, garantendo loro l’accesso anticipato a una versione di ricerca di questo modello. Questa collaborazione è un passo importante per stabilire un processo di ricerca, valutazione e test dei modelli futuri prima e dopo il loro rilascio pubblico.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
16 set 2024
Link copiato negli appunti