DeepSeek R1, Hugging Face svilupperà versione open source

DeepSeek R1, Hugging Face svilupperà versione open source

Mentre tutto il mondo parla del modello di R1 di DeepSeek, che ha fatto impazzire i mercati, c’è chi ha deciso di raccogliere la sfida. Stiamo parlando dei ricercatori di Hugging Face, che si sono messi in testa di replicare il modello cinese da zero, in nome della “conoscenza aperta”. Ecco il loro piano.

Hugging Face svilupperò una versione open-source ispirata a DeepSeek R1

Il capo della ricerca di Hugging Face, Leandro von Werra, insieme a un gruppo di ingegneri dell’azienda, ha lanciato Open-R1, un progetto che ha un obiettivo ambizioso: creare una copia di R1 e rendere open source tutti i suoi componenti, compresi i dati usati per l’addestramento. Il motivo? La filosofia “scatola nera” di DeepSeek non va giù a Hugging Face.

Sulla carta R1 di DeepSeek è un modello “aperto”, con una licenza che ne permette l’uso quasi senza restrizioni. Ma non è “open source” nel vero senso della parola, perché DeepSeek tiene nascosti alcuni degli strumenti usati per crearlo. Come molti big dell’AI, l’azienda cinese non vuole svelare i suoi segreti. E Hugging Face non ci sta.

Elie Bakouch, uno degli ingegneri di Open-R1, sottolinea che, nonostante R1 sia un modello impressionante, senza l’accesso ai dataset di addestramento, agli esperimenti e ai modelli intermedi, è difficile da riprodurre o migliorare. Per Bakouch, rendere completamente open source l’architettura di R1 non è solo un atto di trasparenza, ma anche l’unico modo per sfruttare tutto il suo potenziale.

Secondo Bakouch, per far progredire la ricerca sull’AI non bastano semplici frammenti di informazioni: servono dati completi, strumenti aperti e la possibilità di sperimentare liberamente.

Il controllo sui dati e sul processo è fondamentale

R1 è stato rilasciato senza codice sorgente e istruzioni per l’addestramento. In questo modo i ricercatori non possono analizzare a fondo il modello e comprenderne il funzionamento. Avere controllo sui dataset utilizzati e sul processo di sviluppo invece è essenziale per un utilizzo responsabile, soprattutto in settori sensibili come la sanità o la finanza.

Il team di Open-R1 vuole replicare R1 in poche settimane, usando anche il potente Science Cluster di Hugging Face, con 768 GPU Nvidia H100. L’idea è generare dataset simili a quelli usati da DeepSeek per R1 e costruire una pipeline di addestramento con l’aiuto delle comunità di AI e tech su Hugging Face e GitHub, dove il progetto Open-R1 è ospitato.

GitHub in visibilio per Open-R1

E l’interesse per Open-R1 è già alle stelle: in soli tre giorni ha raccolto 10.000 stelline su GitHub, il modo in cui gli utenti dicono “mi piace” a un progetto. Se avrà successo, i ricercatori di AI potranno usare la pipeline di addestramento per sviluppare la prossima generazione di modelli di ragionamento open source.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
29 gen 2025
Link copiato negli appunti