Google DeepMind ha annunciato Robotics Transformer 2 (RT-2), il primo modello Vision-Language-Action (VLA) che consente di addestrare i robot utilizzando testo e immagini prelevati da Internet. Il modello IA è simile a quelli usati da Google Bard e altri chatbot, ma in questo caso gli output sono istruzioni che il robot esegue nel mondo reale.
Nuovo modello IA per i robot
I robot sono utilizzati per eseguire diverse attività ripetitive perché è praticamente impossibile programmarli per l’esecuzione di compiti complessi. Per una qualsiasi attività umana è necessaria una lunga sequenza di istruzioni. Un robot non può prendere una mela dal tavolo, se non ne ha mai vista una. Circa due anni fa, Google DeepMind ha deciso di usare i modelli IA per consentire ai robot di eseguire varie attività, evitando una nuova programmazione.
RT-2 migliora le capacità di comprensione utilizzando testo e immagini prelevati da Internet, esattamente come avviene con Google Bard. Nel video è visibile una dimostrazione pratica del modello VLA sviluppato dall’azienda di Mountain View. Sul tavolo ci sono diversi oggetti. Un ingegnere di Google chiede al robot di prendere un animale estinto. Il robot cerca e prende il dinosauro.
Il modello VLA non è perfetto. In alcuni casi, il robot esegue azioni sbagliate. Google non ha previsto al momento la vendita di questi robot. I test sono effettuati in laboratorio, quindi non in presenza di altre persone. Sono state però implementate alcune misure di sicurezza.
Sul retro c’è un grande pulsante rosso che blocca il robot. Diversi sensori consentono al robot di evitare persone e oggetti lungo il percorso. Inoltre non è possibile chiedere di prendere un contenitore pieno d’acqua che potrebbe danneggiare i suoi circuiti.