Browser Use, l'alternativa gratuita a Operator di OpenAI

Browser Use, l'alternativa gratuita a Operator di OpenAI

Browser Use è l'alternativa open source e gratuita a Operator. Permette di automatizzare il browser proprio come fa il costoso agente di OpenAI.
Browser Use, l'alternativa gratuita a Operator di OpenAI
Browser Use è l'alternativa open source e gratuita a Operator. Permette di automatizzare il browser proprio come fa il costoso agente di OpenAI.

Gli agenti AI capaci di navigare sul web e svolgere compiti in autonomia, come faremmo noi umani, non sono più solo un’idea futuristica – sono qui, ora. È il caso di Operator di OpenAI. C’è solo un problema: il prezzo.

Per accedere a questa funzionalità, bisogna sottoscrivere l’abbonamento a ChatGPT Pro da 200 dollari al mese. Una cifra che non tutti si possono permettere di sborsare. Ma esiste un’alternativa open-source a Operator, altrettanto potente, e molto più economica: si chiama Browser Use.

Come promemoria, Operator è non si limita a rispondere alle domande, prende letteralmente il controllo del browser, muovendo il cursore, facendo clic sui pulsanti e scorrendo le pagine proprio come faremmo noi.

Si può chiedere semplicemente: “Trova un volo per Roma“, e lui navigherà tra i siti di viaggio, compilerà i moduli, confronterà le opzioni e persino completerà l’acquisto, il tutto muovendosi autonomamente attraverso le interfacce web esattamente come farebbe una persona in carne e ossa.

È questa capacità di interagire fisicamente con gli elementi delle pagine web che lo rende rivoluzionario – non sta solo pensando per noi, sta anche agendo per conto nostro.

Che cos’è Browser use, l’agente AI open source per automatizzare le attività basate sul web alternativo a Operator di OpenAI

Browser Use è il frutto del lavoro di due sviluppatori, Magnus Muller e Gregor Zunic. Il loro obiettivo? Creare un ponte tra gli agenti AI e i siti web, un terreno ancora poco esplorato e irto di ostacoli. Certo, esistono già strumenti per automatizzare le interazioni con i browser. Ma spesso sono rigidi, richiedono competenze di programmazione avanzate e faticano a gestire elementi web dinamici o interazioni complesse.

Anche gli agenti AI non se la cavano granché meglio. Secondo la classifica di WebArena, anche i modelli AI migliori hanno un tasso di successo di appena il 35,8% quando si tratta di svolgere task reali sul web. Ed ecco che entra in scena Browser Use.

Questa libreria open source in Python permette agli agenti AI di interagire con i siti web in modo dinamico, imitando il comportamento umano. Il merito è dell’integrazione con Playwright, un potente strumento di automazione cross-browser sviluppato da Microsoft. Browser Use si distingue per una serie di caratteristiche esclusive:

  • Integrazione con i principali modelli di linguaggio come GPT, Gemini, Claude e altri LLM;
  • Gestione di sessioni di navigazione persistenti;
  • Interazione intelligente con il DOM delle pagine web;
  • Supporto a workflow complessi grazie a LangChain.

Le applicazioni di Browser Use sono infinite. Immaginiamo un agente AI che setaccia automaticamente i siti di lavoro per compilare elenchi di offerte, o che confronta i prezzi dei prodotti su diversi e-commerce. O ancora, che prenota un viaggio online o traccia una spedizione in modo autonomo.

Browser Use offre due possibilità di utilizzo. La prima è un abbonamento da 30 dollari, che permette di eseguire l’agente AI sul loro servizio cloud. La seconda, prevede l’installazione locale sul proprio PC. In questo caso, si paga solo per l’uso delle API. La configurazione non è immediata come quella di Operator, richiede qualche riga di codice in più, ma nulla di trascendentale.

Come iniziare a usare Browser Use sul PC

Per iniziare, servono due cose: Python 3.11 installato sul computer e l’accesso alle API di OpenAI (o un LLM ospitato localmente, se si preferisce).

Essendo Browser Use un agente AI, ha bisogno di un LLM per funzionare. Si può ottenere l’accesso alle API dal sito di OpenAI o da qualsiasi altra API compatibile con Browser Use. Il vantaggio delle API è la flessibilità: si può scegliere tra diversi modelli (come GPT-3.5 e GPT-4) e si paga solo per quello che si usa, invece di una quota di abbonamento anticipata.

In alternativa, si può usare un LLM locale sul proprio computer. Attenzione però: per ottenere prestazioni decenti, serve una potenza di calcolo notevole, che la maggior parte delle persone probabilmente non ha.

Una volta ottenuto l’accesso all’API, si può creare un ambiente virtuale in VS Code andando su view > Command Palette e digitando “create environment”. Quindi, aprire un nuovo terminale e installare Browser-use usando pip.

pip install browser-use

Creare un file .env nella cartella e si aggiunge la propria chiave API.

OPENAI_API_KEY="La tua API qui"

Creare un nuovo file Python con il nome app.py e incollare il seguente codice.

pip install browser-use
OPENAI_API_KEY="La tua API qui"
from langchain_openai import ChatOpenAI

from browser_use import Agent

import asyncio

from dotenv import load_dotenv

load_dotenv()

async def main():

agent = Agent(

task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",

llm=ChatOpenAI(model="gpt-4o"),

)

result = await agent.run()

print(result)

asyncio.run(main())

Sostituire il prompt con il proprio, ad esempio “Cerca Albert Einstein e apri la sua pagina di Wikipedia”. E si esegue il file app.py usando il terminale.

python app.py

Browser Use, un esperimento affascinante

Una delle funzionalità più interessanti di Browser Use è la possibilità di collegarlo direttamente al proprio browser principale, dove si è già loggati con tutti i propri account. Questo permette all’agente AI di inserire dati in un foglio di Google o incollare riassunti di Yahoo News in un documento di Google.

Browser Use non è ancora perfetto, ci sono dei limiti da considerare. Ad esempio, se si chiede a Browser Use di cercare voli su Skyscanner, potrebbe non essere in grado di eseguire correttamente l’operazione.

Potrebbe lasciare vuoti i campi relativi alla partenza e alla destinazione o inserire dati errati. Inoltre, alcuni siti riconoscono che la richiesta proviene da un bot (e non da un utente umano) e bloccano l’accesso. Quindi poi è necessario intervenire manualmente (sempre che si sappia come fare) per aggirare il blocco.

Nonostante ciò, Browser Use è un agente AI interessante. Questa tecnologia è ancora agli inizi e quindi possiamo aspettarci che migliori e maturi con il tempo. Per ora, bisogna essere disposti a smanettare un po’.

Il bello di Browser Use è che è un progetto aperto e collaborativo. Su GitHub vanta già oltre 41.000 stelle e 51 contributori, segno di una community vivace e in crescita. Chiunque può contribuire ad aumentare le funzionalità o segnalare problemi da risolvere.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
15 mar 2025
Link copiato negli appunti