Mistral AI ha rilasciato Mistral Large 2, l’ultima versione del suo modello linguistico di punta, che vanta miglioramenti significativi nella generazione di codice, nella matematica e nelle capacità multilingue. Il nuovo modello da 123 miliardi di parametri è dotato di una finestra di contesto da 128.000 token e mira a sfidare i leader del settore in termini di prestazioni ed efficienza.
Large 2 con 123 miliardi di parametri
Mistral Large 2 ha dimostrato prestazioni impressionanti in vari benchmark. Su compiti di generazione di codice come HumanEval e MultiPL-E, supera Llama 3.1 405B (che Meta ha rilasciato ieri) e si posiziona appena sotto GPT-4. In matematica, in particolare nel benchmark MATH (zero-shot, senza ragionamento a catena), Mistral Large 2 è secondo solo a GPT-4o.
Anche le capacità multilingue del modello hanno subito un notevole incremento. Nel benchmark Multilingual MMLU, Mistral Large 2 supera Llama 3.1 70B base con una media del 6,3% in nove lingue e si comporta alla pari con Llama 3 405B.
Nonostante Large 2 sia un modello di grandi dimensioni, Mistral AI lo ha progettato in modo da poter effettuare l’inferenza (ovvero fare previsioni) su un singolo nodo computazionale, come un PC o un server. Ciò enfatizza l’elevata velocità di elaborazione (throughput) per applicazioni che richiedono contesti di input molto lunghi e articolati.
Mistral sta rendendo disponibile il modello Large 2 sulla sua piattaforma cloud proprietaria Plateforme e sulla piattaforma open source HuggingFace, ma solo per la ricerca e l’uso non commerciale. Per l’uso commerciale è necessaria una licenza per il modello.
Le prestazioni migliorate di Large 2
Arthur Mensch, CEO di Mistral AI, ha dichiarato: “Mistral Large 2 stabilisce una nuova frontiera in termini di rapporto prestazioni/costo sulle metriche di valutazione“. Ha sottolineato che la versione pre-addestrata raggiunge un’accuratezza dell’84,0% su MMLU, stabilendo un nuovo punto sul fronte di Pareto delle prestazioni/costi per i modelli aperti.
Il modello è stato sottoposto a un addestramento estensivo sul codice sorgente, sulla base dell’esperienza di Mistral AI con i precedenti modelli incentrati sul codice. Questa enfasi ha portato a prestazioni paragonabili a quelle di modelli leader come GPT-4, Claude 3 Opus e Llama 3 405B nei compiti di codifica.
Mistral AI si è anche concentrata sul miglioramento delle capacità di ragionamento del modello e sulla riduzione delle allucinazioni. L’azienda riferisce di aver migliorato le prestazioni nei benchmark matematici, a testimonianza di questi sforzi.
Inoltre, Mistral Large 2 è stato addestrato per eccellere nel seguire le istruzioni e nei compiti di conversazione, con particolari miglioramenti nella gestione di istruzioni precise e di lunghe conversazioni.
La competizione si fa sempre più agguerrita
Il lancio di Large 2 da parte di Mistral arriva a breve distanza dal rilascio di Llama 3.1 da parte di Meta. Ciò segnala una crescente competizione tra le aziende nello sviluppo di modelli linguistici avanzati di intelligenza artificiale. I punti di forza di Large 2 sono le prestazioni eccellenti in ambiti specialistici come la generazione automatica di codice sorgente e le operazioni matematiche, oltre al supporto per molte lingue diverse.
Queste caratteristiche rendono Large 2 un modello AI molto interessante sia per la ricerca accademica che per potenziali applicazioni commerciali. Ad esempio, potrebbe essere utilizzato per automatizzare la produzione di codice software o per fornire supporto avanzato agli sviluppatori.