Chatbot Arena: GPT-4 Turbo è il miglior modello AI

OpenAI sta vivendo un periodo di grande fermento. Ieri ha annunciato l’apertura di un nuovo ufficio a Tokyo, in Giappone, e la scorsa settimana ha reso disponibile l’ultimo modello GPT-4 Turbo agli sviluppatori e agli abbonati di ChatGPT. Al momento del lancio, l’azienda aveva promesso numerosi miglioramenti rispetto al predecessore, e utenti stanno già riscontrando i vantaggi di questo importante aggiornamento.

GPT-4 Turbo riconquista il primo posto nella Chatbot Arena

A partire da giovedì, la versione aggiornata di GPT-4 Turbo (gpt-4-turbo-2024-04-09), ha riconquistato il primo posto nella Chatbot Arena della Large Model Systems Organization (LMSYS). Questa piattaforma aperta e crowdsourcing permette agli utenti di valutare i modelli linguistici di grandi dimensioni in modo anonimo, chattando con due modelli fianco a fianco e confrontando le loro risposte senza conoscerne l’identità.

Dopo aver esaminato le risposte, gli utenti possono continuare a interagire fino a quando non si sentono a proprio agio nel determinare quale modello ha vinto, se è un pareggio o se entrambi sono pessimi. I risultati della Chatbot Arena vengono utilizzati per classificare gli 82 LLM presenti nella piattaforma, che comprende tutti i modelli più popolari sul mercato, come Gemini Pro, la famiglia di LLM Claude 3 e Mistral-Large-2402.

Dall’ultimo aggiornamento del 13 aprile, la versione aggiornata di GPT-4 Turbo detiene il primato nelle categorie generale, codifica e inglese. Questo significa che meno di un mese dopo aver superato GPT-4 Turbo, Claude 3 Opus di Anthropic è passato al secondo posto nella categoria generale, seguito da GPT-4-1106-preview, una versione precedente di GPT-4 Turbo, al terzo posto.

Come confrontare i modelli in prima persona

I risultati straordinari di gpt-4-turbo-2024-04-09 potrebbero essere attribuiti alle sue migliori capacità di codifica, matematica, ragionamento logico e scrittura. Queste abilità sono state dimostrate dalle prestazioni più elevate del modello in una serie di benchmark utilizzati per testare la competenza dei sistemi di intelligenza artificiale.

Chi è curioso di confrontare le prestazioni dell’ultima versione di GPT-4 Turtbo con quelle di altri LLM, può visitare il sito Chatbot Arena e fare clic sull’opzione Arena (side-by-side) per selezionare i modelli da mettere a confronto. Bisogna tenere presente però che, poiché in questa modalità si conosce l’identità dei modelli, non sarà possibile votare. Se invece si vuole soltanto esprimere la propria preferenza e far sì che il voto venga conteggiato nella classifica, basta usare l’opzione Arena (battle) per confrontare modelli casuali tra loro.

Se si preferisce saltare i test e passare direttamente all’uso dell’ultima versione di GPT-4 Turtbo, tutto ciò che si deve fare è abbonarsi ChatGPT Plus, un servizio che costa 20 dollari al mese. In questo modo, è possibile sperimentare in prima persona le potenzialità di questo straordinario modello di intelligenza artificiale.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech