I robot imparano meglio dagli schizzi: la scoperta di DeepMind

Un recente studio condotto da ricercatori dell’Università di Stanford e di Google DeepMind suggerisce di utilizzare gli schizzi come istruzioni per i robot. Questo approccio innovativo sfrutta le informazioni spaziali presenti negli schizzi, che aiutano il robot a svolgere i suoi compiti senza essere confuso dal disordine delle immagini realistiche o dall’ambiguità delle istruzioni in linguaggio naturale.

RT-Sketch: un modello basato su schizzi per controllare i robot

I ricercatori hanno sviluppato RT-Sketch, un modello di intelligenza artificiale che sfrutta gli schizzi per controllare e istruire i robot. Questo sistema si è dimostrato in grado di eseguire i compiti assegnati in modo efficace quanto gli agenti AI addestrati con istruzioni in linguaggio naturale o immagini realistiche.

Inoltre, RT-Sketch supera questi altri approcci in situazioni dove le indicazioni fornite tramite testo o foto sono ambigue o incomplete. Gli schizzi, grazie alle informazioni spaziali che contengono, infatti, permettono al robot di comprendere meglio l’obiettivo e portare a termine il compito nel modo corretto.

Perché gli schizzi?

Il linguaggio naturale è intuitivo per comunicare obiettivi ai robot, ma non è sempre sufficiente quando servono indicazioni spaziali precise per posizionare oggetti. Le immagini indicano bene gli obiettivi desiderati, ma non sono sempre disponibili e contengono spesso troppi dettagli irrilevanti. Inoltre, modelli AI addestrati solo su immagini tendono ad adattarsi eccessivamente ai dati, con scarsa capacità di generalizzazione.

Gli schizzi offrono il miglior compromesso: forniscono informazioni spaziali precise evitando i dettagli irrilevanti delle immagini a livello di pixel. Inoltre, aiutano i modelli AI a distinguere gli elementi importanti per il compito, migliorandone la capacità di generalizzare.

L’architettura di RT-Sketch

RT-Sketch si basa sul Robotics Transformer 1 (RT-1), un modello sviluppato da DeepMind che prende in input istruzioni linguistiche e genera comandi per i robot. RT-Sketch ha modificato l’architettura per sostituire l’input in linguaggio naturale con obiettivi visivi, tra cui schizzi e immagini.

I ricercatori hanno addestrato il modello RT-Sketch su schizzi generati da immagini del dataset RT-1, contenente dimostrazioni di attività in VR. Hanno creato manualmente 500 schizzi dai fotogrammi finali delle dimostrazioni, usandoli con le immagini originali per addestrare una rete generativa avversaria (GAN) a produrre schizzi automaticamente.

Applicazioni potenziali di RT-Sketch

RT-Sketch può risultare utile in compiti che richiedono precisione spaziale, dove descrivere a parole l’obiettivo finale richiederebbe più tempo che realizzare uno schizzo, o quando un’immagine dettagliata non è disponibile. Tra le possibili applicazioni: apparecchiare una tavola, disporre oggetti e mobili, piegare indumenti in più fasi, e altri compiti complessi in cui uno schizzo aiuta a delineare sotto-obiettivi.

I ricercatori hanno testato RT-Sketch in scene di manipolazione di oggetti, dimostrando la sua capacità di raggiungere obiettivi spaziali articolati seguendo le istruzioni fornite tramite schizzi. Questo nuovo approccio potrebbe aprire la strada a interazioni uomo-robot più rapide e intuitive, consentendo ai robot di interpretare e mettere in pratica istruzioni visive in modo efficace e flessibile.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech