Uno studio condotto da un team di ricercatori di Nvidia, dell’Università della Pennsylvania e dell’Università del Texas, Austin, ha dimostrato che i modelli linguistici di grandi dimensioni possono accelerare l’addestramento dei sistemi robotici in modo straordinario. Questa scoperta apre la strada a un futuro in cui la robotica potrà progredire a un ritmo senza precedenti, grazie all’integrazione di tecnologie all’avanguardia nel campo dell’intelligenza artificiale.
DrEureka: l’arma segreta per l’addestramento automatizzato
Lo studio presenta DrEureka, una tecnica rivoluzionaria in grado di generare automaticamente funzioni di ricompensa e distribuzioni di randomizzazione per i sistemi robotici. L’acronimo DrEureka sta per Domain Randomization Eureka, a sottolineare la sua capacità di portare soluzioni innovative nel campo della robotica. La forza di DrEureka risiede nella sua semplicità: richiede solo una descrizione ad alto livello del compito da svolgere, risultando più veloce ed efficiente rispetto alle ricompense progettate manualmente nel trasferire le politiche apprese da ambienti simulati al mondo reale.
Le implicazioni di questa scoperta sono potenzialmente enormi per il settore della robotica, che sta vivendo un momento di grande slancio grazie ai progressi nei modelli di linguaggio e di computer vision. L’integrazione degli LLM nell’addestramento dei sistemi robotici potrebbe accelerare notevolmente lo sviluppo di robot sempre più sofisticati e capaci di svolgere compiti complessi in ambienti reali.
Il gap “sim-to-real”: una sfida da superare
Uno dei maggiori ostacoli nello sviluppo di modelli di robotica è il cosiddetto gap “sim-to-real”, ovvero la differenza tra gli ambienti di simulazione utilizzati per l’addestramento e gli ambienti reali in cui i robot devono operare. Colmare questo divario richiede solitamente un processo iterativo di configurazione e messa a punto della politica, che può essere lungo e dispendioso in termini di tempo e risorse.
Il potenziale degli LLM nella robotica
Studi recenti hanno evidenziato come gli LLM possano combinare la loro vasta conoscenza del mondo e le loro capacità di ragionamento con i motori fisici dei simulatori virtuali per apprendere complesse abilità di basso livello. Ad esempio, gli LLM possono essere utilizzati per progettare funzioni di ricompensa, i componenti chiave che guidano il sistema di apprendimento per rinforzo della robotica nel trovare le sequenze di azioni corrette per il compito desiderato. Tuttavia, il trasferimento di una politica appresa in simulazione al mondo reale richiede ancora una serie di modifiche manuali delle funzioni di ricompensa e dei parametri di simulazione.
DrEureka: automatizzare il processo di trasferimento
L’obiettivo di DrEureka è proprio quello di utilizzare gli LLM per automatizzare il lavoro manuale richiesto nel processo di trasferimento dalla simulazione al mondo reale. Basandosi sulla tecnica Eureka, introdotta nell’ottobre 2023, DrEureka utilizza un LLM per generare implementazioni software per una funzione di ricompensa a partire dalla descrizione di un compito robotico.
Queste funzioni di ricompensa vengono poi eseguite in simulazione e i risultati vengono restituiti all’LLM, che riflette sul risultato e apporta modifiche alla funzione di ricompensa. Il vantaggio di questa tecnica è che può essere eseguita in parallelo con centinaia di funzioni di ricompensa generate dal LLM, che può poi scegliere le funzioni migliori e continuare a migliorarle.
Risultati promettenti
I test condotti su piattaforme robotiche quadrupedi e mani robotiche hanno dimostrato l’efficacia di DrEureka. I robot addestrati con questa tecnica hanno superato i sistemi tradizionali in termini di velocità, distanza percorsa e capacità di manipolazione.