Secondo uno studio pubblicato da tre ricercatori di Stanford University e University of California (Berkeley), le capacità di ChatGPT sono diminuite tra marzo e giugno 2023. Dall’analisi delle risposte ottenute usando i modelli GPT-3.5 e GPT-4 sembra che il chatbot sia diventato meno intelligente. Altri esperti hanno però espresso dubbi sulla metodologia utilizzata, evidenziando che non esistono benchmark standardizzati.
ChatGPT è peggiorato?
I test sono stati effettuati tramite accesso alle API. I ricercatori hanno valutato le risposte di ChatGPT a domande su problemi matematici, argomenti sensibili, generazione di codice e ragionamento visuale. Il risultato più eclatante è stato quello ottenuto con la domanda “17077 è un numero primo?“. La percentuale di accuratezza del modello GPT-4 è diminuito dal 97,6% di marzo al 2,4% di giugno, mentre GPT-3.5 è migliorato passando dal 7,4% all’86,8%.
Anche alcuni utenti hanno notato questo “calo di prestazioni”, ipotizzando l’attivazione di qualche restrizione per ridurre il carico computazionale, velocizzare le risposte o limitare gli output indesiderati (allucinazioni). Un dirigente di OpenAI ha dichiarato che GPT-4 non diventato più stupido, anzi è più intelligente della versione precedente.
No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.
Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023
L’azienda californiana ha comunque annunciato che verificherà quanto scoperto dai ricercatori. Alcuni esperti del settore hanno criticato la metodologia adottata per lo studio. Arvind Narayanan, professore di informatica alla Princeton University, ha dichiarato che non è stata valutata la correttezza del codice generato, ma solo se fosse direttamente eseguibile.
Uno dei motivi per cui i risultati sono diversi da quelli sperati è l’approccio chiuso scelto da OpenAI per GPT-4. Non sono noti le fonti usate per l’addestramento del modello, il codice sorgente e l’architettura. I risultati non sono riproducibili e verificabili. Inoltre non esistono benchmark standardizzati che consentono di confrontare diverse versioni dello stesso modello.