Automazione Browser con OpenClaw: Guida Pratica al Controllo Web con AI

Una delle funzionalità più potenti di OpenClaw è il controllo del browser. I tuoi agenti AI possono interagire con i siti web come farebbe un umano: cliccano pulsanti, compilano form, navigano pagine ed estraggono dati. Non è teoria. Lo uso tutti i giorni per task che altrimenti richiederebbero lavoro manuale al browser.

Ti mostro come funziona e cosa puoi costruire.

Perché Automatizzare il Browser

L'automazione browser risolve un problema specifico: molti task richiedono di interagire con interfacce web che non hanno API. Controllare prezzi su un sito, compilare form, monitorare cambiamenti, eseguire test - tutto richiede un browser.

Prima di OpenClaw avevi due opzioni:

Script Selenium o Playwright (devi codificare ogni passaggio)
Lavoro manuale (lento e ripetitivo)

OpenClaw aggiunge una terza opzione: agenti AI che capiscono cosa vuoi e determinano da soli le interazioni con il browser. Tu descrivi l'obiettivo, l'agente naviga la pagina.

Esempio reale dal mio workflow: Ho un agente che monitora i post del blog dei competitor. Visita i loro siti, trova nuovi articoli, estrae i punti chiave e li registra nel mio database Notion. Niente API, niente controlli manuali.

Vuoi integrare AI nel tuo business?

Contattami per una consulenza su come implementare strumenti AI nella tua azienda.

Contattami

Come Funziona il Controllo Browser in OpenClaw

OpenClaw usa Playwright internamente, ma tu non scrivi codice Playwright. Invece usi il tool browser in linguaggio naturale o con comandi strutturati.

L'agente può:

Aprire URL e navigare pagine
Catturare screenshot e snapshot (per analisi AI vision)
Cliccare elementi, compilare form, premere tasti
Estrarre contenuto e verificare risultati
Gestire tab multipli e profili browser
Eseguire JavaScript nel contesto della pagina

Supporta due profili browser:

openclaw - browser isolato gestito da OpenClaw
chrome - connessione al tuo Chrome reale tramite estensione (OpenClaw Browser Relay)

La seconda opzione è potente: il tuo agente può lavorare in tab Chrome che hai già aperti, usando le tue sessioni autenticate e i cookie.

Esempio Base: Web Scraping di un Blog

Vediamo un esempio pratico. Ti mostro i comandi dell'agente e cosa fanno.

Obiettivo: Estrarre titolo e sommario dell'ultimo post di un blog.

Prima apri la pagina:

// L'agente usa il tool browser
browser({
  action: "open",
  url: "https://example.com/blog",
  profile: "openclaw"
})

Poi catturi uno snapshot per capire la struttura della pagina:

browser({
  action: "snapshot",
  targetId: "<dal passaggio precedente>"
})

Lo snapshot restituisce una rappresentazione testuale della pagina con ID di riferimento per ogni elemento. L'AI legge questo per capire il layout.

Clicca sul link del primo post:

browser({
  action: "act",
  targetId: "<id del tab>",
  request: {
    kind: "click",
    ref: "e42"  // riferimento dallo snapshot
  }
})

Estrai titolo e sommario dalla nuova pagina:

browser({
  action: "snapshot",
  targetId: "<id del tab>"
})

L'agente analizza lo snapshot ed estrae il testo rilevante. Niente selettori CSS, niente XPath fragili - l'AI capisce quale testo conta in base al contesto.

Scopri i miei progetti

Dai un occhio ai progetti su cui sto lavorando e alle tecnologie che utilizzo.

Vedi Progetti

Pattern Avanzato: Automazione Form

I form sono ovunque. Form di contatto, pagine di login, interfacce di ricerca. Ecco come gestirli con OpenClaw.

Esempio: Inviare una query di ricerca ed estrarre i risultati.

Naviga al sito e cattura uno snapshot:

browser({ action: "open", url: "https://sito-ricerca.com" })
browser({ action: "snapshot" })

Compila il campo ricerca e invia:

browser({
  action: "act",
  request: {
    kind: "fill",
    ref: "e15",  // campo input ricerca
    text: "Tutorial OpenClaw"
  }
})

browser({
  action: "act",
  request: {
    kind: "click",
    ref: "e16",  // pulsante cerca
    submit: true
  }
})

Aspetta che i risultati si carichino ed estraili:

browser({
  action: "act",
  request: {
    kind: "wait",
    text: "Risultati per"  // aspetta che appaia testo specifico
  }
})

browser({ action: "snapshot" })

L'agente legge i risultati dallo snapshot e li processa come serve.

Dettaglio importante: Il flag submit: true dice all'agente di aspettare la navigazione della pagina dopo il click. Questo previene race condition dove provi a leggere risultati prima che si carichino.

Usare Chrome Extension Relay

L'estensione Chrome relay è geniale per task che richiedono autenticazione o stato browser specifico.

Installa l'estensione OpenClaw Browser Relay in Chrome. Quando attivata su un tab, quel tab diventa disponibile per i tuoi agenti.

Clicca l'icona dell'estensione su un tab per collegarlo. Il badge mostra "ON" quando attivo.

Poi nel tuo agente:

browser({
  action: "open",
  profile: "chrome",  // usa Chrome invece del browser isolato
  url: "https://app.esempio.com/dashboard"
})

L'agente lavora nel tuo tab Chrome reale, usando la tua sessione autenticata. Perfetto per:

Strumenti interni che richiedono login
Siti con flussi di autenticazione complessi
Lavorare con dati nei tuoi account personali

Lo uso per automatizzare task in web app dove sono già loggato - non serve gestire l'autenticazione nell'agente.

Vuoi AI nel tuo business?

Contattami per una consulenza su come implementare strumenti AI nella tua azienda.

Scrivimi

Casi d'Uso Reali

Ecco cosa ho costruito e cosa ho visto fare ad altri:

Monitoraggio contenuti: Agenti che controllano siti specifici per aggiornamenti. Quando trovano nuovo contenuto, estraggono punti chiave e mandano notifiche. Niente API necessarie.

Tracking prezzi: Monitorare siti e-commerce per cambiamenti prezzo. L'agente visita pagine prodotto, estrae prezzi attuali, li confronta con dati storici, avvisa su ribassi.

Automazione invio form: Invii multipli a form di contatto o portali applicativi. L'agente legge una lista di voci, naviga al form, compila accuratamente, invia, verifica successo.

Test UI: Agenti che cliccano attraverso workflow per verificare funzionalità. Possono riportare quali step sono falliti e includere screenshot degli errori.

Estrazione dati: Estrarre dati strutturati da siti che non offrono download. L'agente naviga risultati paginati, estrae ogni voce, compila in un dataset.

Pianificatore meeting: Un agente che apre la tua app calendario, controlla disponibilità e prenota slot basandosi su richieste in arrivo. Funziona con qualsiasi calendario web, non solo quelli con API.

Il pattern è consistente: qualsiasi cosa puoi fare manualmente in un browser, puoi insegnare a un agente di farla. E una volta insegnato, gira in modo affidabile senza supervisione.

Best Practice

Dall'esperienza costruendo questi workflow, ecco cosa conta:

Usa snapshot liberamente. Non dare per scontata la struttura della pagina. Cattura uno snapshot, lascia che l'AI lo legga, poi agisci. Questo gestisce contenuto dinamico e cambi di layout.

Aspetta i cambi di stato. Dopo aver cliccato pulsanti o inviato form, usa azioni wait per assicurarti che la pagina si sia aggiornata prima di procedere. Wait basati su testo (text: "Caricamento completo") sono più affidabili di timeout fissi.

Verifica le azioni. Dopo step importanti (invio form, inserimento dati), cattura un altro snapshot e controlla che appaia il risultato atteso. Cattura errori presto.

Gestisci fallimenti con grazia. Le pagine web cambiano. Costruisci i tuoi agenti per rilevare quando mancano elementi attesi e segnalare errori chiaramente. Meglio fallire con messaggio utile che continuare con assunzioni obsolete.

Rispetta i rate limit. Se fai scraping o molte richieste, aggiungi pause tra azioni. Usa delayMs nelle tue richieste per evitare di sovraccaricare siti o attivare rilevamento bot.

Tieni sessioni separate. Usa il profilo isolato openclaw per script di automazione. Riserva il profilo chrome per task che davvero richiedono il tuo stato autenticato.

Errori Comuni

Selettori fragili: Non fare affidamento su classi CSS o ID nelle tue istruzioni. Cambiano frequentemente. Invece descrivi elementi in linguaggio naturale ("il pulsante blu Invia", "il campo input email") e lascia che l'AI li trovi nello snapshot.

Non aspettare abbastanza: Se il tuo agente clicca troppo velocemente, potrebbe provare a interagire con elementi prima che siano pronti. Aggiungi wait dopo navigazione e aggiornamenti contenuto dinamico.

Ignorare errori: Controlla che le azioni siano riuscite. Dopo un click, verifica che la pagina sia cambiata come atteso. Dopo invio form, verifica che sia apparso il messaggio di successo.

Over-automazione: Non tutto ha bisogno di automazione browser. Se esiste un'API, usa quella. Il controllo browser è per quando non c'è alternativa.

Esplora il mio lavoro

Guarda i progetti che ho costruito e le tecnologie con cui lavoro.

Vedi Progetti

Come Iniziare

Per usare l'automazione browser nel tuo setup OpenClaw:

Assicurati che Playwright sia installato (OpenClaw lo gestisce durante il setup)
Avvia il server di controllo browser: openclaw browser start
Nel codice del tuo agente o in chat, usa il tool browser con azioni appropriate
Per Chrome extension relay, installa OpenClaw Browser Relay dal Chrome Web Store

Inizia semplice. Scegli un task browser ripetitivo che fai manualmente. Scrivi un agente per farlo. Testa accuratamente. Poi espandi.

Prossimi Passi

L'automazione browser è un pezzo del toolkit OpenClaw. Combinala con altre capacità:

Usa web_fetch per estrazione contenuto semplice senza overhead browser
Concatena azioni browser con operazioni file per salvare dati estratti
Integra con API per task che hanno accesso programmatico
Usa skill memoria per tracciare stato attraverso sessioni browser multiple

Il potere viene dal combinare strumenti. Un agente che monitora un sito, estrae dati, li processa con analisi AI e posta risultati su Notion - è possibile, ed è tutto in istruzioni linguaggio naturale.

Considerazioni Finali

L'automazione browser con OpenClaw non serve a sostituire developer con AI. Serve ad automatizzare il lavoro browser tedioso che spreca tempo ai developer.

Scrivo ancora codice. Uso ancora API quando esistono. Ma per i task che servono un browser - controlli prezzo, compilazioni form, test UI, monitoraggio contenuti - lascio che gli agenti se ne occupino. Non si lamentano del lavoro ripetitivo.

Se hai task browser che fai manualmente, prova ad automatizzarne uno con OpenClaw. Inizia con qualcosa di piccolo. Una singola compilazione form, un semplice scrape. Vedi come funziona. Poi espandi.

Il browser è solo un altro strumento nel toolkit dell'agente. Ma è potente.