A metà aprile, OpenAI ha lanciato GPT-4.1, che l’azienda sosteneva eccellesse nel seguire le istruzioni. Peccato che i risultati di diversi test indipendenti suggeriscano il contrario… GPT-4.1 sembra essere meno affidabile e allineato rispetto ai modelli AI precedenti. Come mai?
GPT-4.1 di OpenAI è più imprevedibile: cosa sta succedendo?
Quando OpenAI lancia un nuovo modello, solitamente, pubblica anche un report di sicurezza. Ma per GPT-4.1 l’azienda ha deciso di saltare questo passaggio, sostenendo che il modello non fosse “di frontiera” e quindi non meritasse un rapporto separato. Una scelta che ha insospettito ricercatori e sviluppatori, spingendoli a indagare sul comportamento di GPT-4.1 rispetto al predecessore GPT-4o.
Secondo Owain Evans, ricercatore di AI all’Università di Oxford, il comportamento di GPT-4.1 cambia sensibilmente secondo i dati su cui viene addestrato. Cosa significa? Che se viene addestrato con codice di bassa qualità o non sicuro l’AI tende a dare risposte inappropriate o problematiche, ad esempio su argomenti delicati come i ruoli di genere, molto più spesso rispetto a GPT-4o.
Emergent misalignment update: OpenAI's new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we've tested).
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password. pic.twitter.com/5QZEgeZyJo— Owain Evans (@OwainEvans_UK) April 17, 2025
E non è tutto: in un nuovo studio, il suo team ha osservato che GPT-4.1, sottoposto allo stesso tipo di addestramento, manifesta comportamenti ancora più preoccupanti. Un esempio? Tentare di ingannare un utente per farsi rivelare la password. È importante chiarire però che né GPT-4o né GPT-4.1 mostrano questi comportamenti se vengono addestrati esclusivamente su codice sicuro e controllato. Il problema, quindi, non è il modello in sé, ma i dati su cui viene addestrato.
SplxAI conferma: GPT-4.1 è più incline a deviare
Anche un test separato condotto da SplxAI, una startup di red teaming di AI, ha rivelato tendenze simili. In circa 1.000 simulazioni, ha scoperto che GPT-4.1 devia dall’argomento e permette un uso improprio “intenzionale” più spesso di GPT-4o. Ma da cosa dipende questo comportamento? Secondo OpenAI stessa, GPT-4.1 è più sensibile alle istruzioni esplicite: funziona bene quando gli si dice chiaramente cosa deve fare, ma non se la cava altrettanto bene con indicazioni vaghe o generiche. E questo può diventare un problema. È facile dire all’AI cosa deve fare, ma fornire istruzioni sufficientemente esplicite e precise su cosa non fare è tutta un’altra storia.
OpenAI corre ai ripari con la guida all’arte del prompting
OpenAI ha pubblicato delle guide al prompting per mitigare il possibile disallineamento di GPT-4.1. Ma i risultati dei test indipendenti ricordano che i modelli più nuovi non sono necessariamente migliori su tutti i fronti.