DeepSeek-V3 è il miglior modello AI open source secondo i test

DeepSeek AI, un laboratorio di ricerca cinese sull’intelligenza artificiale, sta facendo scintille nella comunità open-source. Il loro ultimo gioiello? DeepSeek-V3, un modello linguistico di grandi dimensioni basato su Mixture-of-Experts (MoE), con ben 671 miliardi di parametri totali e 37 miliardi attivati per ogni token.

I risultati parlano chiaro: secondo i principali benchmark, DeepSeek-V3 è il modello open-source più potente in circolazione, capace di superare anche i popolari modelli a sorgente chiusa come GPT-4o di OpenAI e Claude 3.5 di Anthropic.

DeepSeek-V3, il nuovo modello AI open source supera GPT-4o

DeepSeek-V3 ha fatto registrare risultati da primato in ben nove benchmark, più di qualsiasi altro modello paragonabile per dimensioni. Ma la cosa sorprendente è che, nonostante queste prestazioni eccellenti, DeepSeek-V3 richiede solo 2,788 milioni di ore GPU H800 per l’addestramento completo, con un costo di circa 5,6 milioni di dollari. Per fare un confronto, l’equivalente modello open-source Llama 3 405B richiede 30,8 milioni di ore GPU. Questo grazie al supporto dell’addestramento FP8 e a profonde ottimizzazioni ingegneristiche.

Ma le sorprese non finiscono qui. DeepSeek-V3 è anche estremamente efficiente nell’inferenza. A partire dall’8 febbraio, l’input di DeepSeek-V3 costerà 0,27 dollari per milione di token (0,07 dollari con la cache), mentre l’output costerà 1,10 dollari per milione di token. Praticamente un decimo di quanto fanno pagare attualmente OpenAI e altre aziende leader per i loro modelli di punta.

“Questo è solo l’inizio”, parola di DeepSeek

Il team di DeepSeek ha commentato così il lancio di DeepSeek-V3 su X: “La nostra missione è incrollabile. Siamo entusiasti di condividere i nostri progressi con la comunità e di vedere il divario tra modelli aperti e chiusi restringersi. Questo è solo l’inizio! Aspettatevi supporto multimodale e altre funzionalità all’avanguardia nell’ecosistema DeepSeek.”

🌌 Open-source spirit + Longtermism to inclusive AGI

🌟 DeepSeek’s mission is unwavering. We’re thrilled to share our progress with the community and see the gap between open and closed models narrowing.

🚀 This is just the beginning! Look forward to multimodal support and…

— DeepSeek (@deepseek_ai) December 26, 2024

Il modello DeepSeek-V3 è già disponibile su GitHub e HuggingFace. Con le sue prestazioni impressionanti e la sua accessibilità economica, potrebbe davvero democratizzare l’accesso a modelli di AI avanzati. Insomma, questo lancio segna un passo significativo verso la chiusura del gap tra modelli aperti e chiusi.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech