I nuovi modelli di ragionamento o3 e o4-mini di OpenAI sono avanti sotto molti aspetti, ma c’è un problema: tendono ad avere le allucinazioni più spesso dei loro predecessori. Fanno più affermazioni inaccurate e inventate rispetto ai modelli precedenti, come o1, o1-mini, o3-mini e persino GPT-4o.
o3 e o4-mini di OpenAI ragionano meglio, ma inventano di più
Secondo i test interni di OpenAI, o3 e o4-mini, pur eccellendo in compiti di coding e matematica, finiscono per fare più affermazioni in generale, sia accurate che inaccurate. o3 ha avuto delle allucinazioni nel 33% delle domande su PersonQA, il benchmark interno di OpenAI per misurare l’accuratezza delle conoscenze di un modello sulle persone. È circa il doppio rispetto a o1 (16%) e o3-mini (14,8%). O4-mini ha fatto ancora peggio, ha inventato informazioni nel 48% delle risposte.
Anche i test di terze parti, come quelli del laboratorio di ricerca Transluce, hanno rilevato che o3 tende a inventarsi le azioni compiute per arrivare alle risposte. In un esempio, il modello ha affermato di aver eseguito del codice su un MacBook Pro 2021 “al di fuori di ChatGPT” e di aver copiato i numeri nella sua risposta. Peccato che non possa farlo.
Perché o3 e o4-mini sono più soggetti alle allucinazioni?
Secondo Neil Chowdhury di Transluce, ex dipendente di OpenAI, il tipo di apprendimento per rinforzo utilizzato per i modelli della serie o potrebbe amplificare problemi solitamente mitigati (ma non del tutto eliminati) dalle pipeline di post-training standard. Sarah Schwettmann, co-fondatrice di Transluce, aggiunge che il tasso di allucinazioni di o3 potrebbe renderlo meno utile di quanto sarebbe altrimenti.
Kian Katanforoosh, professore aggiunto a Stanford e CEO della startup Workera, ha testato o3 nei flussi di lavoro di coding, trovandolo superiore alla concorrenza. Tuttavia, tende a inventare link a siti web non funzionanti. Immaginiamo la frustrazione di un utente che clicca su un link fornito dall’AI solo per scoprire che non porta da nessuna parte…
Le allucinazioni possono aiutare i modelli a generare idee interessanti e a essere creativi nel loro “pensiero”, ma li rendono anche una scommessa rischiosa per le aziende in settori dove l’accuratezza è fondamentale. Un’azienda legale, ad esempio, non sarebbe contenta di un modello che inserisce molti errori fattuali nei contratti dei clienti…
La soluzione contro le allucinazioni: la ricerca online
Una soluzione promettente per aumentare l’accuratezza dei modelli è dotarli della capacità di ricerca online. GPT-4o, grazie alla ricerca web, raggiunge il 90% di accuratezza su SimpleQA, un altro benchmark di OpenAI. Potenzialmente, la ricerca potrebbe migliorare anche i tassi di allucinazione dei modelli di ragionamento, almeno nei casi in cui gli utenti sono disposti a esporre i prompt a un fornitore di ricerca di terze parti.
Se l’aumento delle dimensioni dei modelli di ragionamento continuerà a peggiorare le allucinazioni, la ricerca di una soluzione diventerà ancora più urgente. E OpenAI lo sa bene.