Ad aprile di quest’anno, Microsoft ha presentato la famiglia Phi-3 di piccoli modelli linguistici (SLM), che hanno ridefinito gli standard di prestazione nel settore. Questi modelli hanno superato in modo significativo modelli di dimensioni uguali e superiori nei principali benchmark, con il modello più piccolo, Phi-3-mini, che supera addirittura modelli di dimensioni doppie. Phi-3-small e Phi-3-medium, invece, hanno dimostrato di essere superiori a modelli più grandi come GPT-3.5 Turbo.
Il nuovo modello open-source di Apple: DCLM-7B
Recentemente Apple ha presentato un nuovo modello linguistico open source chiamato DCLM-7B, sviluppato dal team interno DataComp for Language Models. Si tratta di un modello di grandi dimensioni, con 7 miliardi di parametri, che è stato addestrato su un ampio set di dati appositamente curato da Apple.
Per creare questo set di dati, l’azienda ha unito il dataset DCLM-Baseline da 3,8 trilioni di token con dati aggiuntivi provenienti dai dataset StarCoder e ProofPile2, arrivando ad un totale di 4,1 trilioni di token. Apple ha rilasciato DCLM-7B come modello open source con l’obiettivo di dimostrare l’efficacia della curatela sistematica dei dati di addestramento per migliorare le capacità dei modelli linguistici su una varietà di task, inclusa matematica e codifica.
Il Confronto tra DCLM-7B e Phi-3: una scelta discutibile
Apple ha pubblicato i risultati della valutazione di DCLM-7B insieme al confronto con altri modelli di dimensioni simili. Tuttavia, il confronto rivela che il Phi-3 di Microsoft supera il DCLM-7B di Apple in tutte e tre le categorie, compreso l’MMLU. Ciò che sorprende è che Apple non ha indicato il modello specifico di Phi-3 utilizzato per questo confronto.
In base al punteggio MMLU, si può dedurre che il modello utilizzato sia Phi-3 mini, un modello linguistico da 3,8B. Questa scelta solleva interrogativi sul perché Apple abbia deciso di confrontare il suo modello 7B con un modello 3.8B di Microsoft, invece di optare per un confronto più equo con Phi-3 Small, un modello a 7B con un impressionante punteggio MMLU di 75,6.
La corsa verso modelli linguistici di piccole dimensioni ma potenti
La competizione per sviluppare modelli linguistici di piccole dimensioni ad alte prestazioni sta accelerando rapidamente. Mentre il Phi-3 di Microsoft ha stabilito un nuovo standard di riferimento, il DCLM-7B di Apple dimostra il potenziale della curatela mirata dei dati per il miglioramento dei modelli. Resta da vedere come questi piccoli modelli linguistici si evolveranno nel tempo e quale sarà il loro impatto sul panorama più ampio dell’intelligenza artificiale.