OpenAI sta vivendo un periodo di grande fermento. Ieri ha annunciato l’apertura di un nuovo ufficio a Tokyo, in Giappone, e la scorsa settimana ha reso disponibile l’ultimo modello GPT-4 Turbo agli sviluppatori e agli abbonati di ChatGPT. Al momento del lancio, l’azienda aveva promesso numerosi miglioramenti rispetto al predecessore, e utenti stanno già riscontrando i vantaggi di questo importante aggiornamento.
GPT-4 Turbo riconquista il primo posto nella Chatbot Arena
A partire da giovedì, la versione aggiornata di GPT-4 Turbo (gpt-4-turbo-2024-04-09), ha riconquistato il primo posto nella Chatbot Arena della Large Model Systems Organization (LMSYS). Questa piattaforma aperta e crowdsourcing permette agli utenti di valutare i modelli linguistici di grandi dimensioni in modo anonimo, chattando con due modelli fianco a fianco e confrontando le loro risposte senza conoscerne l’identità.
Dopo aver esaminato le risposte, gli utenti possono continuare a interagire fino a quando non si sentono a proprio agio nel determinare quale modello ha vinto, se è un pareggio o se entrambi sono pessimi. I risultati della Chatbot Arena vengono utilizzati per classificare gli 82 LLM presenti nella piattaforma, che comprende tutti i modelli più popolari sul mercato, come Gemini Pro, la famiglia di LLM Claude 3 e Mistral-Large-2402.
Dall’ultimo aggiornamento del 13 aprile, la versione aggiornata di GPT-4 Turbo detiene il primato nelle categorie generale, codifica e inglese. Questo significa che meno di un mese dopo aver superato GPT-4 Turbo, Claude 3 Opus di Anthropic è passato al secondo posto nella categoria generale, seguito da GPT-4-1106-preview, una versione precedente di GPT-4 Turbo, al terzo posto.
Come confrontare i modelli in prima persona
I risultati straordinari di gpt-4-turbo-2024-04-09 potrebbero essere attribuiti alle sue migliori capacità di codifica, matematica, ragionamento logico e scrittura. Queste abilità sono state dimostrate dalle prestazioni più elevate del modello in una serie di benchmark utilizzati per testare la competenza dei sistemi di intelligenza artificiale.
Chi è curioso di confrontare le prestazioni dell’ultima versione di GPT-4 Turtbo con quelle di altri LLM, può visitare il sito Chatbot Arena e fare clic sull’opzione Arena (side-by-side) per selezionare i modelli da mettere a confronto. Bisogna tenere presente però che, poiché in questa modalità si conosce l’identità dei modelli, non sarà possibile votare. Se invece si vuole soltanto esprimere la propria preferenza e far sì che il voto venga conteggiato nella classifica, basta usare l’opzione Arena (battle) per confrontare modelli casuali tra loro.
Se si preferisce saltare i test e passare direttamente all’uso dell’ultima versione di GPT-4 Turtbo, tutto ciò che si deve fare è abbonarsi ChatGPT Plus, un servizio che costa 20 dollari al mese. In questo modo, è possibile sperimentare in prima persona le potenzialità di questo straordinario modello di intelligenza artificiale.