Gemini di Google per l'addestramento del robotaxi di Waymo

Gemini di Google per l'addestramento del robotaxi di Waymo

Waymo del gruppo Alphabet sta testando Gemini, l'AI di Google, per sviluppare il proprio modello multimodale end-to-end per la guida autonoma.
Gemini di Google per l'addestramento del robotaxi di Waymo
Waymo del gruppo Alphabet sta testando Gemini, l'AI di Google, per sviluppare il proprio modello multimodale end-to-end per la guida autonoma.

I modelli di intelligenza artificiale Gemini di Google possono già rispondere alle nostre domande, aiutarci a organizzarci, a scrivere documenti e a codificare applicazioni. Ma in un futuro non troppo lontano, Gemini potrebbe anche… guidare veicoli. In ogni caso, questa è la nuova strada esplorata da Waymo di Alphabet (la società madre di Google) specializzata in veicoli autonomi e robotaxi.

Waymo è attualmente leader nel suo settore. La società di Alphabet, infatti, offre già un concorrente di Uber che opera con auto autonome in diverse città americane, completando più di 150.000 corse a settimana. Sebbene Waymo sia soddisfatta delle tecnologie attualmente utilizzate, sta ora esplorando la possibilità di migliorare i propri veicoli autonomi utilizzando Gemini.

Gemini di Google per l’addestramento dei robotaxi Waymo

In una recente pubblicazione, Waymo presenta un documento scientifico in cui descrive una nuova tecnologia chiamata End-to-End Multimodal Model for Autonomous Driving. “Alimentato da Gemini, EMMA utilizza un modello unificato addestrato end-to-end per generare le traiettorie future dei veicoli autonomi direttamente dai dati dei sensori. Addestrato e ottimizzato specificamente per la guida autonoma, EMMA sfrutta la vasta conoscenza globale di Gemini per comprendere meglio gli scenari complessi sulla strada“, si legge nel comunicato stampa di Waymo.

Perché usare Gemini?

L’approccio attuale di Waymo si basa su diversi moduli indipendenti per svolgere le varie attività di guida autonoma. Il vantaggio di questo sistema è che rende più facile il debug e l’ottimizzazione di ogni modulo separatamente. Tuttavia, presenta un problema di scalabilità. Inoltre, questo sistema avrebbe difficoltà ad adattarsi a nuovi ambienti, perché è ottimizzato per scenari mirati.

L’uso di modelli linguistici multimodali di grandi dimensioni (che includono sia testo che immagini) potrebbe risolvere questo problema di scalabilità. “In effetti, gli MLLM, in quanto modelli di base generalisti, eccellono in due aree chiave: (1) sono addestrati su grandi insiemi di dati su scala Internet che forniscono una ricca conoscenza del mondo al di là di quella contenuta nei comuni registri di guida e (2) dimostrano capacità di ragionamento superiori attraverso tecniche come il ragionamento a catena“, si legge nell’articolo di Waymo.

Le sfide future

Ma per il momento, anche se l’uso dell’intelligenza artificiale generativa sulle auto a guida autonoma ha un enorme potenziale, Waymo ritiene che ci siano ancora sfide significative da affrontare. Ad esempio, il sistema EMMA ha ancora dei limiti in termini di capacità di elaborare i video. Inoltre, comprende ancora solo le immagini, ma non i dati provenienti da sensori più complessi, come il LiDAR.

Sebbene EMMA stia mostrando risultati promettenti, è ancora agli inizi e presenta sfide e limiti in termini di implementazione a bordo, capacità di ragionamento spaziale, interpretabilità e simulazione ad anello chiuso. Ciononostante, riteniamo che i risultati ottenuti ispireranno ulteriori ricerche e progressi in questo settore“, si legge nell’articolo di Waymo.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
1 nov 2024
Link copiato negli appunti