DeepSeek-R1, il modello AI cinese che sfida o1 di OpenAI

DeepSeek-R1, il modello AI cinese che sfida o1 di OpenAI

DeepSeek-R1 è un nuovo modello di intelligenza artificiale cinese definito ragionante, che sembra poter competere con o1 di OpenAI.
DeepSeek-R1, il modello AI cinese che sfida o1 di OpenAI
DeepSeek-R1 è un nuovo modello di intelligenza artificiale cinese definito ragionante, che sembra poter competere con o1 di OpenAI.

DeepSeek, una società di ricerca sull’AI cinese, ha presentato un’anteprima di DeepSeek-R1, un modello AI “ragionante”. L’azienda sostiene che può competere con o1 di OpenAI.

La cosa “strana” è che DeepSeek è sostenuta da High-Flyer Capital Management, un hedge fund quantitativo cinese che utilizza l’intelligenza artificiale per prendere le proprie decisioni di trading. Ma c’è di più. High-Flyer mira a raggiungere l’AI “superintelligente” attraverso la sua organizzazione DeepSeek e costruisce i propri cluster di server per l’addestramento dei modelli, il più recente dei quali avrebbe 10.000 GPU Nvidia A100 e sarebbe costato 1 miliardo di yen (~138 milioni di dollari).

DeepSeek-R1, il modello AI cinese che ragiona come o1 di OpenAI

A differenza della maggior parte dei sistemi AI, i modelli che “ragionano” si auto-verificano, dedicando più tempo a considerare una domanda o una query. Questo li aiuta a evitare alcuni degli errori in cui i modelli normalmente incappano.

DeepSeek-R1, come o1 di OpenAI, ragiona sui compiti, pianifica in anticipo ed esegue una serie di azioni che aiutano il modello a giungere a una risposta. Questo processo può richiedere del tempo, anche decine di secondi, a seconda della complessità della domanda.

DeepSeek afferma che DeepSeek-R1 offre prestazioni pari al modello o1-preview di OpenAI su due popolari benchmark di IA, AIME e MATH. Tuttavia, il modello non è perfetto. Alcuni utenti su X hanno notato che il sistema fatica con il tris e altri problemi logici (come fa anche o1).

Inoltre, DeepSeek-R1 sembra bloccare le domande “scomode” sulla politica (es. sul leader cinese Xi Jinping, su Piazza Tienanmen, ecc.). Questo comportamento è probabilmente il risultato della pressione del governo cinese sui progetti di intelligenza artificiale nel Paese. Non dimentichiamo che in Cina i modelli AI devono essere sottoposti a benchmark da parte del regolatore internet cinese per garantire che le loro risposte “incarnino i valori socialisti fondamentali“.

Si dice che il governo sia arrivato al punto di proporre una lista nera di fonti che non possono essere utilizzate per addestrare i modelli. Molti sistemi AI cinesi quindi si rifiutano di rispondere a argomenti che potrebbero suscitare l’ira dei regolatori… Al di là delle indiscrezioni, DeepSeek afferma di voler rendere open source DeepSeek-R1 e rilasciare un’API.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
21 nov 2024
Link copiato negli appunti