DeepSeek-V3 è il miglior modello AI open source secondo i test

DeepSeek-V3 è il miglior modello AI open source secondo i test

Con risultati eccellenti nei benchmark di intelligenza artificiale, DeepSeek-V3 segna un nuovo standard per i modelli linguistici open source.
DeepSeek-V3 è il miglior modello AI open source secondo i test
Con risultati eccellenti nei benchmark di intelligenza artificiale, DeepSeek-V3 segna un nuovo standard per i modelli linguistici open source.

DeepSeek AI, un laboratorio di ricerca cinese sull’intelligenza artificiale, sta facendo scintille nella comunità open-source. Il loro ultimo gioiello? DeepSeek-V3, un modello linguistico di grandi dimensioni basato su Mixture-of-Experts (MoE), con ben 671 miliardi di parametri totali e 37 miliardi attivati per ogni token.

I risultati parlano chiaro: secondo i principali benchmark, DeepSeek-V3 è il modello open-source più potente in circolazione, capace di superare anche i popolari modelli a sorgente chiusa come GPT-4o di OpenAI e Claude 3.5 di Anthropic.

DeepSeek-V3, il nuovo modello AI open source supera GPT-4o

DeepSeek-V3 ha fatto registrare risultati da primato in ben nove benchmark, più di qualsiasi altro modello paragonabile per dimensioni. Ma la cosa sorprendente è che, nonostante queste prestazioni eccellenti, DeepSeek-V3 richiede solo 2,788 milioni di ore GPU H800 per l’addestramento completo, con un costo di circa 5,6 milioni di dollari. Per fare un confronto, l’equivalente modello open-source Llama 3 405B richiede 30,8 milioni di ore GPU. Questo grazie al supporto dell’addestramento FP8 e a profonde ottimizzazioni ingegneristiche.

Ma le sorprese non finiscono qui. DeepSeek-V3 è anche estremamente efficiente nell’inferenza. A partire dall’8 febbraio, l’input di DeepSeek-V3 costerà 0,27 dollari per milione di token (0,07 dollari con la cache), mentre l’output costerà 1,10 dollari per milione di token. Praticamente un decimo di quanto fanno pagare attualmente OpenAI e altre aziende leader per i loro modelli di punta.

“Questo è solo l’inizio”, parola di DeepSeek

Il team di DeepSeek ha commentato così il lancio di DeepSeek-V3 su X: “La nostra missione è incrollabile. Siamo entusiasti di condividere i nostri progressi con la comunità e di vedere il divario tra modelli aperti e chiusi restringersi. Questo è solo l’inizio! Aspettatevi supporto multimodale e altre funzionalità all’avanguardia nell’ecosistema DeepSeek.

Il modello DeepSeek-V3 è già disponibile su GitHub e HuggingFace. Con le sue prestazioni impressionanti e la sua accessibilità economica, potrebbe davvero democratizzare l’accesso a modelli di AI avanzati. Insomma, questo lancio segna un passo significativo verso la chiusura del gap tra modelli aperti e chiusi.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
27 dic 2024
Link copiato negli appunti