In un nuovo documento di ricerca intitolato “Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs“, il team di robotica DeepMind di Google mostra come sta addestrando i robot a spostarsi e a completare i compiti utilizzando la lunga finestra di contesto di Gemini 1.5 Pro, segnando un significativo passo avanti per i robot assistiti dall’intelligenza artificiale.
I robot di Google DeepMind guardano video per imparare
La lunga finestra contestuale di Gemini 1.5 Pro permette al modello AI di elaborare una quantità di informazioni molto maggiore rispetto ai suoi predecessori. Questa capacità consente al robot di “ricordare” e comprendere l’ambiente circostante, rendendolo più adattabile e flessibile. Il team di DeepMind ne sta facendo un uso intelligente: sta facendo in modo che i robot “guardino” i video tour dei luoghi, proprio come farebbe una persona.
Questa lunga finestra contestuale permette all’AI di elaborare e comprendere vaste quantità di informazioni in una sola volta. Si tratta di una svolta per il modo in cui i robot possono apprendere e interagire con l’ambiente circostante.
Ecco il loro processo:
- I ricercatori filmano la visita di un luogo, come un ufficio o una casa.
- Il robot, alimentato da Gemini 1.5 Pro, guarda il video.
- Il robot impara la disposizione, la posizione e le caratteristiche principali dello spazio.
- Quando in seguito riceve un comando, il robot utilizza la sua “memoria” del video per orientarsi.
Ad esempio, se mostrate al robot un telefono e si chiede: “Dove posso ricaricarlo?“, il robot può condurre a una presa di corrente che ricorda di aver visto nel video. Abbastanza sorprendente!
I robot di Google DeepMind possono anche pianificare i compiti grazie a Gemini
Il team ha testato questi robot Gemini in un’area di 9.000 metri quadrati. I robot hanno fatto centro, riuscendo a seguire oltre 50 istruzioni diverse nel 90% dei casi. Si tratta di un grande risultato per quanto riguarda la capacità dei robot di muoversi in spazi complessi. Le applicazioni potenziali sono infinite, dall’assistenza agli anziani al miglioramento dell’efficienza sul posto di lavoro.
I robot potrebbero essere in grado di fare anche più. Il team di DeepMind ha già dimostrato che questi robot possono pianificare compiti in più fasi. Ad esempio, in un video condiviso dall’azienda, un utente con delle lattine di bibite vuote sulla scrivania chiede se la sua bibita preferita è disponibile. Il robot capisce che deve Andare al frigorifero, Cercare la bevanda specifica e tornare e riferire ciò che ha trovato.
Questo dimostra un livello di comprensione e pianificazione che va oltre il semplice atto di spostarsi.
Robot ancora lenti ma promettenti
Naturalmente, c’è ancora molto spazio per i miglioramenti: ad esempio, il sistema impiega dai 10 ai 30 secondi per elaborare ogni istruzione. È troppo lento per un uso reale. Inoltre, i test sono stati condotti solo in ambienti controllati, non nel disordinato e imprevedibile mondo reale.
Ma il team di DeepMind non si ferma. Sta lavorando per rendere il sistema più veloce e in grado di gestire compiti più complessi. Con il miglioramento di questa tecnologia, potremmo avere robot che capiscono e si muovono nel nostro mondo quasi come gli esseri umani.