Un recente studio condotto da ricercatori dell’Università di Stanford e di Google DeepMind suggerisce di utilizzare gli schizzi come istruzioni per i robot. Questo approccio innovativo sfrutta le informazioni spaziali presenti negli schizzi, che aiutano il robot a svolgere i suoi compiti senza essere confuso dal disordine delle immagini realistiche o dall’ambiguità delle istruzioni in linguaggio naturale.
RT-Sketch: un modello basato su schizzi per controllare i robot
I ricercatori hanno sviluppato RT-Sketch, un modello di intelligenza artificiale che sfrutta gli schizzi per controllare e istruire i robot. Questo sistema si è dimostrato in grado di eseguire i compiti assegnati in modo efficace quanto gli agenti AI addestrati con istruzioni in linguaggio naturale o immagini realistiche.
Inoltre, RT-Sketch supera questi altri approcci in situazioni dove le indicazioni fornite tramite testo o foto sono ambigue o incomplete. Gli schizzi, grazie alle informazioni spaziali che contengono, infatti, permettono al robot di comprendere meglio l’obiettivo e portare a termine il compito nel modo corretto.
Perché gli schizzi?
Il linguaggio naturale è intuitivo per comunicare obiettivi ai robot, ma non è sempre sufficiente quando servono indicazioni spaziali precise per posizionare oggetti. Le immagini indicano bene gli obiettivi desiderati, ma non sono sempre disponibili e contengono spesso troppi dettagli irrilevanti. Inoltre, modelli AI addestrati solo su immagini tendono ad adattarsi eccessivamente ai dati, con scarsa capacità di generalizzazione.
Gli schizzi offrono il miglior compromesso: forniscono informazioni spaziali precise evitando i dettagli irrilevanti delle immagini a livello di pixel. Inoltre, aiutano i modelli AI a distinguere gli elementi importanti per il compito, migliorandone la capacità di generalizzare.
L’architettura di RT-Sketch
RT-Sketch si basa sul Robotics Transformer 1 (RT-1), un modello sviluppato da DeepMind che prende in input istruzioni linguistiche e genera comandi per i robot. RT-Sketch ha modificato l’architettura per sostituire l’input in linguaggio naturale con obiettivi visivi, tra cui schizzi e immagini.
I ricercatori hanno addestrato il modello RT-Sketch su schizzi generati da immagini del dataset RT-1, contenente dimostrazioni di attività in VR. Hanno creato manualmente 500 schizzi dai fotogrammi finali delle dimostrazioni, usandoli con le immagini originali per addestrare una rete generativa avversaria (GAN) a produrre schizzi automaticamente.
Applicazioni potenziali di RT-Sketch
RT-Sketch può risultare utile in compiti che richiedono precisione spaziale, dove descrivere a parole l’obiettivo finale richiederebbe più tempo che realizzare uno schizzo, o quando un’immagine dettagliata non è disponibile. Tra le possibili applicazioni: apparecchiare una tavola, disporre oggetti e mobili, piegare indumenti in più fasi, e altri compiti complessi in cui uno schizzo aiuta a delineare sotto-obiettivi.
I ricercatori hanno testato RT-Sketch in scene di manipolazione di oggetti, dimostrando la sua capacità di raggiungere obiettivi spaziali articolati seguendo le istruzioni fornite tramite schizzi. Questo nuovo approccio potrebbe aprire la strada a interazioni uomo-robot più rapide e intuitive, consentendo ai robot di interpretare e mettere in pratica istruzioni visive in modo efficace e flessibile.