Anthropic ha annunciato Claude 3.5 Sonnet, il primo della famiglia Claude 3.5. Sonnet è il modello intermedio, ma la nuova versione supera GPT-4o di OpenAI e Gemini 1.5 Pro di Google in quasi tutti i benchmark di riferimento. La startup californiana ha introdotto anche Artifacts, una funzionalità che permette di vedere il risultato di una richiesta fatta al chatbot.
Claude 3.5 Sonnet e Artifacts
Sonnet offre la migliore combinazione tra capacità e prestazioni. Nonostante sia un modello più piccolo, la versione 3.5 supera Claude 3 Opus nell’esecuzione di svariati compiti, conservando una maggiore velocità e un minore costo. Anthropic afferma che Claude 3.5 Sonnet è ora il punto di riferimento per la capacità di comprensione, il livello di ragionamento e la generazione di codice.
In base ad un test interno, il nuovo modello ha risolto il 64% dei bug e aggiunto funzionalità ad un codice open source con descrizioni dei miglioramenti in linguaggio naturale. I risultati dei test più noti dimostrano la superiorità rispetto ai modelli GPT-4o di OpenAI e Gemini 1.5 Pro di Google (GPT-4o è il migliore solo nella risoluzione di problemi matematici e nella comprensione di livello studente universitario).
Claude 3.5 Sonnet ha supera inoltre GPT-4o e Gemini 1.5 Pro in quattro su cinque benchmark relativi alle capacità multimodali. Notevoli miglioramenti sono stati ottenuti nell’interpretazione di tabelle e grafici, oltre che nella trascrizione del testo dalle immagini.
Claude 3.5 Sonnet è disponibile gratuitamente per il chatbot su web e app iOS (anche in Europa), mentre gli abbonati Pro e Team possono ottenere prestazioni più elevate. Il modello è inoltre accessibile tramite API, Amazon Bedrock e Google Vertex AI. I costi sono 3 dollari per un milione di token in input e 15 dollari per un milione di token in output (la context window è 200K).
Artifacts è invece una nuova modalità di interazione con Claude. Determinate risposte dei chatbot, ad esempio la generazione di codice in un linguaggio di programmazione, devono essere copiate in un editor per vedere il risultato finale. La nuova funzionalità di Anthropic mostra il risultato in una finestra accanto alla conversazione.
Come si può vedere nel video, Artifacts offre uno spazio di lavoro dinamico che consente di vedere e modificare i risultati in tempo reale. Entro fine anno verranno rilasciati Claude 3.5 Haiku e Claude 3.5 Opus.