Anthropic ha sorpreso tutti con l’annuncio dei suoi nuovi modelli: l’aggiornamento di Claude 3.5 Sonnet e l’introduzione di Claude 3.5 Haiku. Il primo porta con sé miglioramenti significativi in diversi ambiti, in particolare nella codifica, mentre il secondo si pone come diretta concorrenza a GPT-4o Mini di OpenAI e Gemini 1.5 Flash di Google. La buona notizia per gli sviluppatori è che Claude 3.5 Haiku sarà disponibile allo stesso prezzo del suo predecessore, nonostante i notevoli progressi in termini di prestazioni.
Nuovi traguardi per Claude 3.5 Sonnet e Haiku
L’aggiornamento di Claude 3.5 Sonnet ha portato a risultati eccezionali nei benchmarks di riferimento. Il punteggio SWE-bench Verified è balzato dal 33,4% al 49,0%, stabilendo un nuovo record nel settore. Anche i punteggi TAU-bench, GPQA e MMLU Pro hanno registrato incrementi significativi, superando in alcuni casi i risultati di Gemini 1.5 Pro. Claude 3.5 Haiku, dal canto suo, ha dimostrato di poter competere con i modelli più grandi della generazione precedente di Anthropic, come Claude 3 Opus, ottenendo un punteggio del 40,6% su SWE-bench Verified e surclassando l’originale Claude 3.5 Sonnet e OpenAI GPT-4 Turbo.
Disponibilità e sicurezza dei nuovi modelli
I nuovi modelli Claude 3.5 sono già disponibili per gli sviluppatori tramite diverse piattaforme, come Anthropic API, Amazon Bedrock e Vertex AI di Google Cloud, senza alcun aumento di prezzo.
L’azienda ha annunciato di aver sottoposto il nuovo modello Claude 3.5 Sonnet a rigorosi test di sicurezza condotti congiuntamente dall’AI Safety Institute statunitense e dall’UK Safety Institute, prima del rilascio pubblico. I test avevano lo scopo di verificare la conformità del modello agli standard ASL-2 sulla scalabilità responsabile dell’intelligenza artificiale, come previsto dalla politica aziendale.
Gli istituti indipendenti hanno certificato che Claude 3.5 Sonnet rispetta i requisiti di robustezza, affidabilità e controllo richiesti dal livello 2 della Scala di Allineamento AI. Questa rigorosa fase di test pre-lancio conferma che ogni nuovo modello viene validato per minimizzare potenziali rischi e garantire l’allineamento ai principi di responsabilità.
Claude Sonnet 3.5 ora può usare il PC in totale autonomia
Anthropic non si è limitata a migliorare le prestazioni dei suoi modelli, ma ha anche introdotto una nuova funzione in versione beta che potrebbe rivoluzionare il modo in cui interagiamo con l’intelligenza artificiale. Questa funzione consente ai modelli di IA di interagire con i computer, imitando le azioni umane come la visualizzazione delle schermate, il movimento del cursore, i clic e la digitazione.
L’obiettivo è rendere Claude in grado di assistere gli utenti nelle attività quotidiane al computer, aprendo la strada a una maggiore versatilità dell’AI nella gestione di flussi di lavoro complessi.