Phi-3.5 di Microsoft, l’ultima versione della sua famiglia di modelli linguistici open-source e di piccole dimensioni, ha messo in fibrillazione il settore.
La serie di modelli AI, che comprende Phi-3.5 Mini, Phi-3.5 MoE e Phi-3.5 Vision, nonostante le dimensioni ridotte, riescono a raggiungere livelli di performance solitamente appannaggio di sistemi di intelligenza artificiale più grandi e complessi.
Phi-3.5 di Microsoft, una famiglia di modelli AI “muscolosa”
Phi-3.5 Mini, con i suoi 3,8 miliardi di parametri, supera modelli più grandi come Llama 3.1 8B e Mistral 7B per quanto riguarda le capacità multilingue. Questo modello è particolarmente adatto a scenari che richiedono forti capacità di ragionamento in ambienti con risorse limitate.
Il modello Mixture of Experts (MoE) ha 42 miliardi di parametri totali, ma solo 6,6 miliardi sono attivi durante la generazione. Questa efficienza gli permette di superare concorrenti come Gemini 1.5 Flash di Google nei compiti di ragionamento, pur mantenendo un’impronta computazionale più piccola. L’approccio modulare dell’architettura MoE significa anche che questo modello può passare dinamicamente da un “esperto” all’altro a seconda del compito da svolgere, garantendo efficienza e precisione in scenari complessi.
Completa la gamma Phi-3.5 Vision, che integra funzionalità multimodali, elaborando sia testo che immagini. Con 4,2 miliardi di parametri, eccelle in compiti come il riconoscimento ottico dei caratteri, la comprensione dei grafici e persino la sintesi dei video. La sua capacità di gestire compiti di ragionamento multi-frame, come il confronto di immagini da diversi punti temporali o il riassunto di una sequenza di fotogrammi, lo pone alla pari con concorrenti molto più grandi, come GPT-4o.
Una caratteristica distintiva di tutti e tre i modelli è la lunghezza del contesto di 128.000 token. Questa ampia finestra di contesto consente ai modelli di gestire con facilità documenti lunghi, conversazioni complesse e analisi visive multi-frame.
L’approccio di Microsoft
La strategia di Microsoft di sviluppare sia modelli AI di grandi dimensioni come quelli della famiglia GPT, sia modelli più compatti ed efficienti come la serie Phi, mostra un approccio sfaccettato allo sviluppo dell’intelligenza artificiale.
L’approccio a doppio binario di Microsoft, infatti, consente di espanderne sia il campo di applicazione che l’accessibilità. I modelli AI di grandi dimensioni basati sul cloud permettono applicazioni complesse, mentre i modelli compatti abilitano l’uso dell’intelligenza artificiale in una varietà di settori e contesti, dall’agricoltura alla produzione industriale alla sanità.
Grazie ai modelli di dimensioni ridotte, l’AI può essere implementata non solo su vasta scala tramite il cloud ma anche in ambienti offline e su dispositivi con risorse limitate. L’AI diventa così più democratica e alla portata di un maggior numero di utilizzatori e casi d’uso.
I modelli Phi-3.5 sono disponibili open source con licenza MIT, permettendone libero utilizzo e modifica.