GPT-4.5, l’ultimo gioiello di OpenAI, ha appena fatto il suo debutto trionfale su Chatbot Arena. E quando diciamo trionfale, intendiamo proprio che ha sbaragliato la concorrenza in quasi tutte le categorie. Questo modello, che OpenAI aveva presentato la scorsa settimana come il più esperto sempre, ma non rivoluzionario, ha dimostrato invece di non essere solo tutto fumo e niente arrosto.
GPT-4.5 di OpenAI al top in varie categorie su Chatbot Arena
Ma in quali categorie GPT-4.5 ha primeggiato esattamente? Praticamente in tutte quelle che contano: Multi-Turn, Hard Prompts, Coding, Math, Creative Writing, Instruction Following e Longer Query. Insomma, questo modello è un vero secchione che sa fare di tutto, dalla programmazione alla scrittura creativa, passando per la matematica e l’esecuzione di istruzioni complesse.
GPT-4.5 ha conquistato anche il primo posto nella classifica dello Style Control. In poche parole, sa adattare il suo stile di scrittura a qualsiasi contesto e destinatario.
Grok-3, l’outsider che non molla
Ma GPT-4.5 non è l’unico astro nascente nel firmamento dell’intelligenza artificiale. Anche Grok-3, l’ultimo modello di xAI, ha fatto faville al suo esordio su Chatbot Arena. Si è piazzato primo ex aequo in ben sei categorie: Hard Prompts (English), Coding, Math, Creative Writing, Instruction Following e Longer Query. Insomma, la sfida si fa sempre più serrata.
GPT-4.5, un fuoriclasse anche fuori dall’arena
Ma il dominio di GPT-4.5 non si limita a Chatbot Arena. Questo modello ha fatto man bassa anche in altri benchmark dell’industria AI. Ha vinto l’Elimination Game, un torneo che mette alla prova le capacità di ragionamento sociale, strategia e inganno dei modelli linguistici. Ha ottenuto il punteggio più alto nei test del QI tra tutti i modelli non-reasoning. E ha registrato il tasso di allucinazione più basso tra tutti i grandi modelli linguistici di OpenAI nel benchmark SimpleQA.
Come ha rivelato Sam Altman, questo sarà l’ultimo modello senza catena di pensiero dell’azienda. In altre parole, d’ora in poi tutti i modelli di OpenAI saranno in grado di ragionare passo dopo passo. Ha inoltre confermato che anche gli utenti di ChatGPT con account gratuito avranno accesso a GPT-5, ma con le impostazioni di base dell’intelligenza artificiale, senza le funzionalità avanzate riservate agli abbonati.