Dopo aver introdotto Phi-4 a dicembre 2024, ora l’azienda di Redmond ha deciso di ampliare la famiglia con due nuovi arrivati: Phi-4-multimodal e Phi-4-mini.
Phi-4-multimodal e Phi-4-mini: i nuovi modelli linguistici di Microsoft
Phi-4-multimodal è il primo modello di linguaggio multimodale di Microsoft. In pratica, sa fare un po’ di tutto: elabora testo, voce e immagini con un’unica architettura unificata. Con i suoi 5,6 miliardi di parametri, questo modello sfida i colossi del settore come Gemini 2.0 Flash e Gemini 2.0 Flash Lite di Google, superandoli in diversi benchmark.
Per fare qualche esempio, nei compiti legati al riconoscimento vocale e alla traduzione del parlato, Phi-4-multimodal batte modelli specializzati come WhisperV3 di OpenAI e SeamlessM4T-v2-Large di Meta. E non è finita qui: il modello ha conquistato la vetta della classifica OpenASR di Hugging Face con un impressionante tasso di errore delle parole del 6,14%. Questo significa che il modello commette meno errori nella trascrizione rispetto alla maggior parte dei modelli AI attualmente disponibili.
Anche nelle attività legate alla visione, Phi-4-multimodal se la cava egregiamente, specialmente nel ragionamento matematico e scientifico. Messo alla prova con i documenti e i grafici, o la richiesta di estrarre testo dalle immagini, questo gioiellino tiene testa (e a volte supera) pesi massimi come Gemini-2-Flash-lite-preview e Claude-3.5-Sonnet.
Phi-4-mini sarà anche compatto con i suoi 3,8 miliardi di parametri, ma non ha nulla da invidiare ai suoi fratelli maggiori. Questo modello supera diversi LLM più grandi in compiti basati sul testo come il ragionamento, la matematica, la codifica, l’esecuzione di istruzioni e la chiamata di funzioni.
Disponibilità dei nuovi modelli
Microsoft ha lavorato duramente per garantire la sicurezza e l’affidabilità di questi nuovi modelli. Phi-4-mini e Phi-4-multimodal sono stati testati da esperti interni ed esterni, seguendo le strategie del Microsoft AI Red Team. Entrambi i modelli possono essere implementati direttamente sui dispositivi, grazie all’ottimizzazione con ONNX Runtime per la disponibilità multipiattaforma. Questo li rende ideali per scenari a basso costo e bassa latenza.
Da oggi, Phi-4-multimodal e Phi-4-mini sono a disposizione degli sviluppatori su Azure AI Foundry, Hugging Face e NVIDIA API Catalog. Per scoprire tutti i dettagli tecnici, gli usi consigliati e le limitazioni di questi modelli, basta dare un’occhiata al documento tecnico pubblicato da Microsoft.