Nuovo modello AI di Apple dietro Phi-3 di Microsoft

Ad aprile di quest’anno, Microsoft ha presentato la famiglia Phi-3 di piccoli modelli linguistici (SLM), che hanno ridefinito gli standard di prestazione nel settore. Questi modelli hanno superato in modo significativo modelli di dimensioni uguali e superiori nei principali benchmark, con il modello più piccolo, Phi-3-mini, che supera addirittura modelli di dimensioni doppie. Phi-3-small e Phi-3-medium, invece, hanno dimostrato di essere superiori a modelli più grandi come GPT-3.5 Turbo.

Il nuovo modello open-source di Apple: DCLM-7B

Recentemente Apple ha presentato un nuovo modello linguistico open source chiamato DCLM-7B, sviluppato dal team interno DataComp for Language Models. Si tratta di un modello di grandi dimensioni, con 7 miliardi di parametri, che è stato addestrato su un ampio set di dati appositamente curato da Apple.

Per creare questo set di dati, l’azienda ha unito il dataset DCLM-Baseline da 3,8 trilioni di token con dati aggiuntivi provenienti dai dataset StarCoder e ProofPile2, arrivando ad un totale di 4,1 trilioni di token. Apple ha rilasciato DCLM-7B come modello open source con l’obiettivo di dimostrare l’efficacia della curatela sistematica dei dati di addestramento per migliorare le capacità dei modelli linguistici su una varietà di task, inclusa matematica e codifica.

Il Confronto tra DCLM-7B e Phi-3: una scelta discutibile

Apple ha pubblicato i risultati della valutazione di DCLM-7B insieme al confronto con altri modelli di dimensioni simili. Tuttavia, il confronto rivela che il Phi-3 di Microsoft supera il DCLM-7B di Apple in tutte e tre le categorie, compreso l’MMLU. Ciò che sorprende è che Apple non ha indicato il modello specifico di Phi-3 utilizzato per questo confronto.

In base al punteggio MMLU, si può dedurre che il modello utilizzato sia Phi-3 mini, un modello linguistico da 3,8B. Questa scelta solleva interrogativi sul perché Apple abbia deciso di confrontare il suo modello 7B con un modello 3.8B di Microsoft, invece di optare per un confronto più equo con Phi-3 Small, un modello a 7B con un impressionante punteggio MMLU di 75,6.

La corsa verso modelli linguistici di piccole dimensioni ma potenti

La competizione per sviluppare modelli linguistici di piccole dimensioni ad alte prestazioni sta accelerando rapidamente. Mentre il Phi-3 di Microsoft ha stabilito un nuovo standard di riferimento, il DCLM-7B di Apple dimostra il potenziale della curatela mirata dei dati per il miglioramento dei modelli. Resta da vedere come questi piccoli modelli linguistici si evolveranno nel tempo e quale sarà il loro impatto sul panorama più ampio dell’intelligenza artificiale.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech