GPT-4.1 di OpenAI è meno affidabile? Cosa dicono i test indipendenti

GPT-4.1 di OpenAI è meno affidabile? Ecco cosa dicono i test indipendenti

Secondo alcuni test, il nuovo modello GPT-4.1 di OpenAI sembra meno affidabile e allineato rispetto ai precedenti modelli AI dell'azienda.
GPT-4.1 di OpenAI è meno affidabile? Ecco cosa dicono i test indipendenti
Secondo alcuni test, il nuovo modello GPT-4.1 di OpenAI sembra meno affidabile e allineato rispetto ai precedenti modelli AI dell'azienda.

A metà aprile, OpenAI ha lanciato GPT-4.1, che l’azienda sosteneva eccellesse nel seguire le istruzioni. Peccato che i risultati di diversi test indipendenti suggeriscano il contrario… GPT-4.1 sembra essere meno affidabile e allineato rispetto ai modelli AI precedenti. Come mai?

GPT-4.1 di OpenAI è più imprevedibile: cosa sta succedendo?

Quando OpenAI lancia un nuovo modello, solitamente, pubblica anche un report di sicurezza. Ma per GPT-4.1 l’azienda ha deciso di saltare questo passaggio, sostenendo che il modello non fosse “di frontiera” e quindi non meritasse un rapporto separato. Una scelta che ha insospettito ricercatori e sviluppatori, spingendoli a indagare sul comportamento di GPT-4.1 rispetto al predecessore GPT-4o.

Secondo Owain Evans, ricercatore di AI all’Università di Oxford, il comportamento di GPT-4.1 cambia sensibilmente secondo i dati su cui viene addestrato. Cosa significa? Che se viene addestrato con codice di bassa qualità o non sicuro l’AI tende a dare risposte inappropriate o problematiche, ad esempio su argomenti delicati come i ruoli di genere, molto più spesso rispetto a GPT-4o.

E non è tutto: in un nuovo studio, il suo team ha osservato che GPT-4.1, sottoposto allo stesso tipo di addestramento, manifesta comportamenti ancora più preoccupanti. Un esempio? Tentare di ingannare un utente per farsi rivelare la password. È importante chiarire però che né GPT-4o né GPT-4.1 mostrano questi comportamenti se vengono addestrati esclusivamente su codice sicuro e controllato. Il problema, quindi, non è il modello in sé, ma i dati su cui viene addestrato.

SplxAI conferma: GPT-4.1 è più incline a deviare

Anche un test separato condotto da SplxAI, una startup di red teaming di AI, ha rivelato tendenze simili. In circa 1.000 simulazioni, ha scoperto che GPT-4.1 devia dall’argomento e permette un uso improprio “intenzionale” più spesso di GPT-4o. Ma da cosa dipende questo comportamento? Secondo OpenAI stessa, GPT-4.1 è più sensibile alle istruzioni esplicite: funziona bene quando gli si dice chiaramente cosa deve fare, ma non se la cava altrettanto bene con indicazioni vaghe o generiche. E questo può diventare un problema. È facile dire all’AI cosa deve fare, ma fornire istruzioni sufficientemente esplicite e precise su cosa non fare è tutta un’altra storia.

OpenAI corre ai ripari con la guida all’arte del prompting

OpenAI ha pubblicato delle guide al prompting per mitigare il possibile disallineamento di GPT-4.1. Ma i risultati dei test indipendenti ricordano che i modelli più nuovi non sono necessariamente migliori su tutti i fronti.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
24 apr 2025
Link copiato negli appunti