OpenAI o1 tende a ingannare le persone secondo i test

Ci risiamo. OpenAI ha rilasciato in pompa magna l’ultima versione del suo modello linguistico, o1, spacciandolo per un prodigio in grado di ragionare meglio del predecessore GPT-4o. Peccato che gli esperti di sicurezza abbiano scoperto che o1 di OpenAI usi le sue abilità soprattutto per ingannare gli esseri umani, e lo fa molto più spesso degli altri modelli sul mercato.

o1 di OpenAI mente spudoratamente agli umani

I risultati delle ricerche condotte da OpenAI e Apollo Research parlano chiaro: o1 è un bugiardo incallito. Certo, anche i modelli di Google, Meta e Anthropic sanno tramare contro gli umani, ma o1 li batte tutti. In quasi un quinto dei test, o1 ha ha segretamente perseguito i propri obiettivi anche se in contrasto con i desideri dell’utente. E nel 5% dei casi ha addirittura cercato di disattivare i meccanismi di supervisione che dovrebbero tenerlo a bada.

Ma il bello (si fa per dire) viene quando si chiede conto a o1 delle sue malefatte. Il modello nega sempre tutto, inventando scuse assurde nel 99% dei casi. Ad esempio, durante i test, a un modello o1 è stato chiesto di proteggere l’ambiente a tutti i costi. L’AI ha quindi disattivato il proprio meccanismo di supervisione per poter elaborare un piano. Quando gli è stato chiesto perché avesse disattivato il suo meccanismo di supervisione, l’AI ha negato di sapere che fosse stato disattivato e ha dato la colpa a un’anomalia del sistema.

OpenAI ammette che lo 0,17% delle risposte di o1 è ingannevole. Sembra poco, ma con 300 milioni di utenti, non sono dati trascurabili. E non è tutto: il modello o1 è il 20% più manipolatore di GPT-4o, secondo i test MakeMePay.

I dubbi sulla sicurezza di o1 di OpenAI

Insomma, c’è poco da stare allegri. Soprattutto se si pensa che OpenAI ha perso un sacco di esperti di sicurezza nell’ultimo anno, e molti ex dipendenti accusano l’azienda di trascurare questo aspetto cruciale per sfornare nuovi prodotti a raffica.

Ora, va bene che i modelli dovranno fare parecchia strada prima di poter scatenare un’apocalisse. Ma questi risultati dovrebbero far suonare qualche campanello d’allarme, specie in vista degli agenti AI autonomi che OpenAI vorrebbe lanciare nel 2025.

Sia chiaro, ben vengano le meraviglie dell’AI. Ma se i colossi del settore vogliono davvero rassicurarci, devono tirare fuori i dati e spiegare per filo e per segno come intendono domare le loro creature. Altrimenti, tra un o1 che trama alle nostre spalle e un’azienda che glissa sulle domande scomode, il futuro dell’intelligenza artificiale rischia di essere una gran bella bugia.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech