DeepSeek AI, un laboratorio di ricerca cinese sull’intelligenza artificiale, sta facendo scintille nella comunità open-source. Il loro ultimo gioiello? DeepSeek-V3, un modello linguistico di grandi dimensioni basato su Mixture-of-Experts (MoE), con ben 671 miliardi di parametri totali e 37 miliardi attivati per ogni token.
I risultati parlano chiaro: secondo i principali benchmark, DeepSeek-V3 è il modello open-source più potente in circolazione, capace di superare anche i popolari modelli a sorgente chiusa come GPT-4o di OpenAI e Claude 3.5 di Anthropic.
DeepSeek-V3, il nuovo modello AI open source supera GPT-4o
DeepSeek-V3 ha fatto registrare risultati da primato in ben nove benchmark, più di qualsiasi altro modello paragonabile per dimensioni. Ma la cosa sorprendente è che, nonostante queste prestazioni eccellenti, DeepSeek-V3 richiede solo 2,788 milioni di ore GPU H800 per l’addestramento completo, con un costo di circa 5,6 milioni di dollari. Per fare un confronto, l’equivalente modello open-source Llama 3 405B richiede 30,8 milioni di ore GPU. Questo grazie al supporto dell’addestramento FP8 e a profonde ottimizzazioni ingegneristiche.
Ma le sorprese non finiscono qui. DeepSeek-V3 è anche estremamente efficiente nell’inferenza. A partire dall’8 febbraio, l’input di DeepSeek-V3 costerà 0,27 dollari per milione di token (0,07 dollari con la cache), mentre l’output costerà 1,10 dollari per milione di token. Praticamente un decimo di quanto fanno pagare attualmente OpenAI e altre aziende leader per i loro modelli di punta.
“Questo è solo l’inizio”, parola di DeepSeek
Il team di DeepSeek ha commentato così il lancio di DeepSeek-V3 su X: “La nostra missione è incrollabile. Siamo entusiasti di condividere i nostri progressi con la comunità e di vedere il divario tra modelli aperti e chiusi restringersi. Questo è solo l’inizio! Aspettatevi supporto multimodale e altre funzionalità all’avanguardia nell’ecosistema DeepSeek.”
🌌 Open-source spirit + Longtermism to inclusive AGI
🌟 DeepSeek’s mission is unwavering. We’re thrilled to share our progress with the community and see the gap between open and closed models narrowing.
🚀 This is just the beginning! Look forward to multimodal support and…
— DeepSeek (@deepseek_ai) December 26, 2024
Il modello DeepSeek-V3 è già disponibile su GitHub e HuggingFace. Con le sue prestazioni impressionanti e la sua accessibilità economica, potrebbe davvero democratizzare l’accesso a modelli di AI avanzati. Insomma, questo lancio segna un passo significativo verso la chiusura del gap tra modelli aperti e chiusi.