Cómo crear automatización de navegador impulsada por IA con Python, Ollama y DeepSeek

button

La automatización de navegadores moderna está evolucionando rápidamente. Atrás quedaron los días de los frágiles scripts de Selenium y los flujos de trabajo precarios. Con herramientas de código abierto como Browser Use, combinadas con hosts LLM locales como Ollama y motores de razonamiento avanzados como DeepSeek, los desarrolladores ahora pueden construir agentes de IA que navegan por la web, interactúan con formularios, extraen datos y automatizan tareas de forma fiable, todo impulsado por instrucciones en lenguaje natural.

En esta guía, aprenderá cómo configurar esta potente pila, comprenderá el papel de cada componente y escribirá un agente de IA basado en Python que puede controlar su navegador programáticamente. Ya sea usted un desarrollador de API, un ingeniero de backend o un especialista en control de calidad, este enfoque abre nuevas posibilidades para una automatización de navegador robusta, privada y escalable.

¿Por qué elegir Browser Use, Ollama y DeepSeek para la automatización de navegadores con IA?

Browser Use: Un paquete de Python para orquestar acciones del navegador (navegar, hacer clic, extraer).
Ollama: Un servidor LLM local, que permite la inferencia de modelos privada y de alto rendimiento en su hardware.
DeepSeek: Un motor de razonamiento avanzado (por ejemplo, deepseek/seed o deepseek-r1) que traduce instrucciones de alto nivel en pasos de navegador accionables.

Juntas, estas herramientas le permiten construir agentes de IA que pueden:

Automatizar la navegación web y la extracción de datos
Rellenar formularios e interactuar con páginas dinámicas
Ejecutar tareas de varios pasos basadas en indicaciones en lenguaje natural

Requisitos previos: Configuración de su entorno de desarrollo

Antes de empezar, asegúrese de que su sistema cumple los siguientes requisitos:

Python 3.11+ (python --version)
Ollama (descargar desde ollama.com)
Node.js (node --version, requerido para la automatización del navegador a través de Playwright)
Git (para clonar repositorios)
Hardware: Al menos 4 núcleos de CPU, 16 GB de RAM y 12 GB de almacenamiento libre (para DeepSeek). Una GPU es opcional pero recomendada para modelos grandes.

Consejo: Instale cualquier componente que falte para evitar problemas de configuración más adelante.

Configuración paso a paso: Creando su proyecto de automatización de navegador con IA

1. Organice su proyecto

Cree una carpeta dedicada para su trabajo:

mkdir browser-use-agent
cd browser-use-agent

2. Clone el repositorio de Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. Cree y active un entorno virtual de Python

Esto mantiene las dependencias aisladas:

python -m venv venv
# Activar:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

Verá (venv) en su terminal, confirmando la activación.

4. Abra su proyecto en VS Code

VS Code ofrece una excelente integración con Python:

code .

¿No tiene VS Code? Descárguelo o use su editor favorito.

Instalando Ollama y DeepSeek localmente

1. Instale Ollama

Descargue e instale desde ollama.com. Después de instalar, confirme que funciona:

ollama --version

2. Descargue el modelo DeepSeek

Para un razonamiento de alta calidad, use el modelo "seed" de DeepSeek:

ollama pull deepseek/seed

Nota: El modelo tiene ~12 GB. Si el almacenamiento o la GPU son limitados, pruebe con qwen2.5:14b (~4 GB).
Verifique la instalación:

ollama list

Busque deepseek-r1 o el modelo que haya elegido.

Instalando Browser Use y las dependencias requeridas

1. Instale Browser Use y las herramientas de desarrollo

En su entorno virtual, ejecute:

pip install . ."[dev]"

2. Agregue la integración de LangChain y Ollama

pip install langchain langchain-ollama

Estos paquetes conectan su agente con el LLM local.

3. Instale Playwright para la automatización del navegador

playwright install

Si encuentra problemas, asegúrese de que Python 3.11+ esté activo, o ejecute:

playwright install-deps

Configurando la pila: Conecte Browser Use a Ollama y DeepSeek

Inicie el servidor Ollama en una terminal separada:

ollama serve

Esto inicia el servidor LLM en http://localhost:11434. Manténgalo en ejecución mientras trabaja.

Ejemplo: Construya un agente de IA para verificar el clima de Boston en Google

Creemos un script de Python que instruya a su agente de IA para que use Google y obtenga el clima de Boston.

Cree test.py en la carpeta de su proyecto y agregue:

import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())

Asegúrese de que VS Code esté usando el intérprete de Python de su entorno virtual
- Presione Ctrl+P (o Cmd+P en Mac)
- Escriba > Select Python Interpreter
- Elija el intérprete .venv de su proyecto
Ejecute el script:

python test.py

El agente iniciará un navegador, buscará en Google el clima de Boston y mostrará el resultado.

Si ve un error, confirme que Ollama está en ejecución (ollama serve) y que el puerto 11434 está abierto. Para solucionar problemas, consulte los registros en ~/.ollama/logs.

Integrando Apidog: Pruebas de API fiables para agentes de IA de navegador

Cuando su agente de IA de navegador interactúa con APIs web, como la extracción de datos de puntos finales o la automatización de flujos de trabajo basados en API, la validación fiable de contratos de API se vuelve esencial.

Cómo ayuda Apidog:

Las pruebas automatizadas de API aseguran que los puntos finales funcionen como se espera
Genera y gestiona casos de prueba de API para su backend
Valida contratos de API en entornos de staging y producción

Apidog se integra sin problemas en las canalizaciones de automatización de navegadores, lo que le permite verificar que las APIs en las que confía su agente son robustas y consistentes.

Comience a usar Apidog gratis para fortalecer sus flujos de trabajo de IA de navegador.

Pruebas de Contratos de API con Apidog

button

Consejos para una ingeniería de prompts efectiva

Obtenga una automatización más precisa elaborando prompts claros y específicos:

Sea específico:
"Ve a kayak.com, busca vuelos de Zúrich a Pekín, 25.12.2025–02.02.2026, ordena por precio"
es mejor que
"Busca vuelos."
Desglose tareas complejas:
p. ej., "Visita LinkedIn, busca trabajos de ML, guarda los enlaces en un archivo, postúlate a los 3 primeros."
Itere y refine:
Ajuste sus prompts si los resultados no son los esperados. Probar en el chat de Open WebUI puede ayudar.

Depuración y solución de problemas

Verifique los registros de Ollama:
Ubicados en ~/.ollama/logs, útiles para diagnosticar errores del modelo.
Monitoree la salida de Playwright:
Playwright registra todas las acciones y errores en su terminal.
Rendimiento:
Si los modelos DeepSeek funcionan lentamente, considere modelos más ligeros o configuraciones de computación distribuida.
Cambie las tareas fácilmente:
Actualice la cadena task en su script para automatizar diferentes flujos de trabajo (por ejemplo, extraer estrellas de GitHub, automatizar flujos de inicio de sesión).

Preguntas frecuentes

P1. ¿Qué es Browser Use?
Un paquete de Python para la automatización de navegadores impulsada por IA utilizando Playwright. GitHub

P2. ¿Necesito una GPU?
No es necesaria para modelos más pequeños como DeepSeek/seed, pero las GPU aceleran los modelos más grandes.

P3. ¿Puedo usar modelos además de DeepSeek?
Sí, cualquier modelo con capacidad de razonamiento compatible con Ollama puede funcionar. GitHub

P4. ¿Mis datos se procesan localmente?
Sí. Ejecutar Ollama mantiene los datos y la inferencia en su máquina a menos que se configure lo contrario. Chrome Web Store

P5. ¿Puedo automatizar inicios de sesión y tareas de varios pasos?
Absolutamente; simplemente defina su tarea de alto nivel y el agente de IA la desglosará.

Conclusión

Con Python, Browser Use, Ollama y DeepSeek, puede construir robustos agentes de IA que automatizan navegadores reales utilizando instrucciones en lenguaje natural. Esta pila es ideal para equipos impulsados por API que necesitan una automatización fiable, privada y potente, ya sea para control de calidad, integración de backend o pruebas avanzadas.

Agregue Apidog a su flujo de trabajo para validar y probar las API con las que interactúan sus agentes, asegurando que su automatización siempre funcione según lo previsto.

¿Listo para construir agentes de navegador inteligentes? Comience hoy y optimice su automatización web con confianza.

button