I robot imparano meglio dagli schizzi: la scoperta di DeepMind

I robot imparano meglio dagli schizzi: la scoperta di DeepMind

Un studio condotto da ricercatori dell'Università di Stanford e di Google DeepMind suggerisce di utilizzare gli schizzi come istruzioni per i robot.
I robot imparano meglio dagli schizzi: la scoperta di DeepMind
Un studio condotto da ricercatori dell'Università di Stanford e di Google DeepMind suggerisce di utilizzare gli schizzi come istruzioni per i robot.

Un recente studio condotto da ricercatori dell’Università di Stanford e di Google DeepMind suggerisce di utilizzare gli schizzi come istruzioni per i robot. Questo approccio innovativo sfrutta le informazioni spaziali presenti negli schizzi, che aiutano il robot a svolgere i suoi compiti senza essere confuso dal disordine delle immagini realistiche o dall’ambiguità delle istruzioni in linguaggio naturale.

RT-Sketch: un modello basato su schizzi per controllare i robot

I ricercatori hanno sviluppato RT-Sketch, un modello di intelligenza artificiale che sfrutta gli schizzi per controllare e istruire i robot. Questo sistema si è dimostrato in grado di eseguire i compiti assegnati in modo efficace quanto gli agenti AI addestrati con istruzioni in linguaggio naturale o immagini realistiche.

Inoltre, RT-Sketch supera questi altri approcci in situazioni dove le indicazioni fornite tramite testo o foto sono ambigue o incomplete. Gli schizzi, grazie alle informazioni spaziali che contengono, infatti, permettono al robot di comprendere meglio l’obiettivo e portare a termine il compito nel modo corretto.

Perché gli schizzi?

Il linguaggio naturale è intuitivo per comunicare obiettivi ai robot, ma non è sempre sufficiente quando servono indicazioni spaziali precise per posizionare oggetti. Le immagini indicano bene gli obiettivi desiderati, ma non sono sempre disponibili e contengono spesso troppi dettagli irrilevanti. Inoltre, modelli AI addestrati solo su immagini tendono ad adattarsi eccessivamente ai dati, con scarsa capacità di generalizzazione.

Gli schizzi offrono il miglior compromesso: forniscono informazioni spaziali precise evitando i dettagli irrilevanti delle immagini a livello di pixel. Inoltre, aiutano i modelli AI a distinguere gli elementi importanti per il compito, migliorandone la capacità di generalizzare.

L’architettura di RT-Sketch

RT-Sketch si basa sul Robotics Transformer 1 (RT-1), un modello sviluppato da DeepMind che prende in input istruzioni linguistiche e genera comandi per i robot. RT-Sketch ha modificato l’architettura per sostituire l’input in linguaggio naturale con obiettivi visivi, tra cui schizzi e immagini.

I ricercatori hanno addestrato il modello RT-Sketch su schizzi generati da immagini del dataset RT-1, contenente dimostrazioni di attività in VR. Hanno creato manualmente 500 schizzi dai fotogrammi finali delle dimostrazioni, usandoli con le immagini originali per addestrare una rete generativa avversaria (GAN) a produrre schizzi automaticamente.

Applicazioni potenziali di RT-Sketch

RT-Sketch può risultare utile in compiti che richiedono precisione spaziale, dove descrivere a parole l’obiettivo finale richiederebbe più tempo che realizzare uno schizzo, o quando un’immagine dettagliata non è disponibile. Tra le possibili applicazioni: apparecchiare una tavola, disporre oggetti e mobili, piegare indumenti in più fasi, e altri compiti complessi in cui uno schizzo aiuta a delineare sotto-obiettivi.

I ricercatori hanno testato RT-Sketch in scene di manipolazione di oggetti, dimostrando la sua capacità di raggiungere obiettivi spaziali articolati seguendo le istruzioni fornite tramite schizzi. Questo nuovo approccio potrebbe aprire la strada a interazioni uomo-robot più rapide e intuitive, consentendo ai robot di interpretare e mettere in pratica istruzioni visive in modo efficace e flessibile.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
12 mar 2024
Link copiato negli appunti