GPT-4.1 di OpenAI è meno affidabile? Cosa dicono i test indipendenti

A metà aprile, OpenAI ha lanciato GPT-4.1, che l’azienda sosteneva eccellesse nel seguire le istruzioni. Peccato che i risultati di diversi test indipendenti suggeriscano il contrario… GPT-4.1 sembra essere meno affidabile e allineato rispetto ai modelli AI precedenti. Come mai?

GPT-4.1 di OpenAI è più imprevedibile: cosa sta succedendo?

Quando OpenAI lancia un nuovo modello, solitamente, pubblica anche un report di sicurezza. Ma per GPT-4.1 l’azienda ha deciso di saltare questo passaggio, sostenendo che il modello non fosse “di frontiera” e quindi non meritasse un rapporto separato. Una scelta che ha insospettito ricercatori e sviluppatori, spingendoli a indagare sul comportamento di GPT-4.1 rispetto al predecessore GPT-4o.

Secondo Owain Evans, ricercatore di AI all’Università di Oxford, il comportamento di GPT-4.1 cambia sensibilmente secondo i dati su cui viene addestrato. Cosa significa? Che se viene addestrato con codice di bassa qualità o non sicuro l’AI tende a dare risposte inappropriate o problematiche, ad esempio su argomenti delicati come i ruoli di genere, molto più spesso rispetto a GPT-4o.

Emergent misalignment update: OpenAI's new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we've tested).
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password. pic.twitter.com/5QZEgeZyJo

— Owain Evans (@OwainEvans_UK) April 17, 2025

E non è tutto: in un nuovo studio, il suo team ha osservato che GPT-4.1, sottoposto allo stesso tipo di addestramento, manifesta comportamenti ancora più preoccupanti. Un esempio? Tentare di ingannare un utente per farsi rivelare la password. È importante chiarire però che né GPT-4o né GPT-4.1 mostrano questi comportamenti se vengono addestrati esclusivamente su codice sicuro e controllato. Il problema, quindi, non è il modello in sé, ma i dati su cui viene addestrato.

SplxAI conferma: GPT-4.1 è più incline a deviare

Anche un test separato condotto da SplxAI, una startup di red teaming di AI, ha rivelato tendenze simili. In circa 1.000 simulazioni, ha scoperto che GPT-4.1 devia dall’argomento e permette un uso improprio “intenzionale” più spesso di GPT-4o. Ma da cosa dipende questo comportamento? Secondo OpenAI stessa, GPT-4.1 è più sensibile alle istruzioni esplicite: funziona bene quando gli si dice chiaramente cosa deve fare, ma non se la cava altrettanto bene con indicazioni vaghe o generiche. E questo può diventare un problema. È facile dire all’AI cosa deve fare, ma fornire istruzioni sufficientemente esplicite e precise su cosa non fare è tutta un’altra storia.

OpenAI corre ai ripari con la guida all’arte del prompting

OpenAI ha pubblicato delle guide al prompting per mitigare il possibile disallineamento di GPT-4.1. Ma i risultati dei test indipendenti ricordano che i modelli più nuovi non sono necessariamente migliori su tutti i fronti.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech