Amazon ha annunciato un nuovo membro della sua famiglia di modelli AI. Nova Act è un agente AI che può controllare il browser ed eseguire azioni per conto dell’utente. Verrà sfruttato anche per Alexa+, ma al momento è disponibile solo una versione preliminare attraverso Nova Act SDK.
Descrizione e prestazioni di Nova Act
I primi modelli Nova (Micro, Lite e Pro) sono stati annunciati all’inizio di dicembre 2024. Il primo supporta solo input testuali, mentre gli altri due sono multimodali. Successivamente sono arrivati Nova Canvas (generazione di immagini) e Nova Reel (generazione di video). Ora è il turno di Nova Act.
Utilizzano il Nova Act SDK, gli sviluppatori statunitensi possono creare agenti AI che eseguono attività in maniera autonoma. In questo caso è possibile controllare il browser per completare specifici compiti, come effettuare un acquisto o prenotare un tavolo al ristorante.
Il modello riconosce gli elementi del browser e il contenuto delle pagine web. Può quindi simulare clic, scrolling, selezione e altre azioni che un utente umano esegue con mouse e tastiera. In base ai benchmark pubblicati da Amazon, Nova Act supera Operator di OpenAI e Computer Use di Anthropic.
L’azienda di Seattle ha pubblicato alcuni video su YouTube per mostrare le capacità del modello. Nel primo video cerca un appartamento e trova la distanza su Google Maps:
Nel secondo video ordina un’insalata da consegnare ogni martedì:
Nel terzo video viene utilizzato da Alexa+ per contattare un servizio di assistenza:
Nova Act è il primo prodotto pubblico sviluppato dal nuovo AGI Lab aperto a San Francisco e co-guidato da Pieter Abbeel e David Luan, ex ricercatori di OpenAI.