Comment créer une automatisation de navigateur intelligente avec Python, Ollama et DeepSeek

bouton

L'automatisation moderne des navigateurs évolue rapidement. L'époque des scripts Selenium fragiles et des flux de travail délicats est révolue. Grâce à des outils open source comme Browser Use, combinés à des hôtes LLM locaux tels qu'Ollama et à des moteurs de raisonnement avancés comme DeepSeek, les développeurs peuvent désormais créer des agents IA capables de naviguer sur le web, d'interagir avec des formulaires, d'extraire des données et d'automatiser des tâches de manière fiable, le tout grâce à des instructions en langage naturel.

Dans ce guide, vous apprendrez à configurer cette pile puissante, à comprendre le rôle de chaque composant et à écrire un agent IA basé sur Python capable de contrôler votre navigateur par programmation. Que vous soyez un développeur d'API, un ingénieur backend ou un spécialiste QA, cette approche ouvre de nouvelles possibilités pour une automatisation de navigateur robuste, privée et évolutive.

Pourquoi choisir Browser Use, Ollama et DeepSeek pour l'automatisation de navigateur par IA ?

Browser Use : Un package Python pour orchestrer les actions du navigateur (naviguer, cliquer, extraire).
Ollama : Un serveur LLM local, permettant une inférence de modèle privée et performante sur votre matériel.
DeepSeek : Un moteur de raisonnement avancé (par exemple, deepseek/seed ou deepseek-r1) qui traduit les instructions de haut niveau en étapes de navigateur actionnables.

Ensemble, ces outils vous permettent de créer des agents IA capables de :

Automatiser la navigation web et l'extraction de données
Remplir des formulaires et interagir avec des pages dynamiques
Exécuter des tâches multi-étapes basées sur des invites en langage naturel

Prérequis : Configuration de votre environnement de développement

Avant de commencer, assurez-vous que votre système répond aux exigences suivantes :

Python 3.11+ (python --version)
Ollama (télécharger sur ollama.com)
Node.js (node --version, requis pour l'automatisation du navigateur via Playwright)
Git (pour le clonage de dépôts)
Matériel : Au moins 4 cœurs de CPU, 16 Go de RAM et 12 Go de stockage libre (pour DeepSeek). Un GPU est facultatif mais recommandé pour les grands modèles.

Conseil : Installez tous les composants manquants pour éviter les problèmes de configuration ultérieurs.

Configuration étape par étape : Création de votre projet d'automatisation de navigateur par IA

1. Organiser votre projet

Créez un dossier dédié pour votre travail :

mkdir browser-use-agent
cd browser-use-agent

2. Cloner le dépôt Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. Créer et activer un environnement virtuel Python

Cela permet d'isoler les dépendances :

python -m venv venv
# Activate:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

Vous verrez (venv) dans votre terminal, confirmant l'activation.

4. Ouvrir votre projet dans VS Code

VS Code offre une excellente intégration Python :

code .

Vous n'avez pas VS Code ? Téléchargez-le ou utilisez votre éditeur préféré.

Installation d'Ollama et DeepSeek localement

1. Installer Ollama

Téléchargez et installez depuis ollama.com. Après l'installation, confirmez que cela fonctionne :

ollama --version

2. Télécharger le modèle DeepSeek

Pour un raisonnement de haute qualité, utilisez le modèle DeepSeek « seed » :

ollama pull deepseek/seed

Note : Le modèle fait environ 12 Go. Si le stockage ou le GPU est limité, essayez qwen2.5:14b (environ 4 Go).
Vérifier l'installation :

ollama list

Recherchez deepseek-r1 ou le modèle que vous avez choisi.

Installation de Browser Use et des dépendances requises

1. Installer Browser Use et les outils de développement

Dans votre environnement virtuel, exécutez :

pip install . ."[dev]"

2. Ajouter l'intégration LangChain et Ollama

pip install langchain langchain-ollama

Ces packages connectent votre agent au LLM local.

3. Installer Playwright pour l'automatisation du navigateur

playwright install

Si vous rencontrez des problèmes, assurez-vous que Python 3.11+ est actif, ou exécutez :

playwright install-deps

Configuration de la pile : Connecter Browser Use à Ollama et DeepSeek

Démarrez le serveur Ollama dans un terminal séparé :

ollama serve

Cela lance le serveur LLM à l'adresse http://localhost:11434. Laissez-le fonctionner pendant que vous travaillez.

Exemple : Créer un agent IA pour vérifier la météo de Boston sur Google

Créons un script Python qui ordonne à votre agent IA d'utiliser Google pour récupérer la météo de Boston.

Créez test.py dans le dossier de votre projet et ajoutez :

import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())

Assurez-vous que VS Code utilise l'interpréteur Python de votre environnement virtuel
- Appuyez sur Ctrl+P (ou Cmd+P sur Mac)
- Tapez > Select Python Interpreter
- Choisissez l'interpréteur .venv de votre projet
Exécutez le script :

python test.py

L'agent lancera un navigateur, recherchera la météo de Boston sur Google et affichera le résultat.

Si vous voyez une erreur, confirmez qu'Ollama est en cours d'exécution (ollama serve) et que le port 11434 est ouvert. Pour le dépannage, consultez les logs dans ~/.ollama/logs.

Intégration d'Apidog : Tests d'API fiables pour les agents IA de navigateur

Lorsque votre agent IA de navigateur interagit avec des API web — comme l'extraction de données à partir d'endpoints ou l'automatisation de flux de travail basés sur des API — la validation fiable des contrats d'API devient essentielle.

Comment Apidog peut aider :

Les tests d'API automatisés garantissent que les endpoints fonctionnent comme prévu
Génère et gère les cas de test d'API pour votre backend
Valide les contrats d'API entre les environnements de staging et de production

Apidog s'intègre en douceur dans les pipelines d'automatisation des navigateurs, vous permettant de vérifier que les API sur lesquelles votre agent s'appuie sont robustes et cohérentes.

Commencez à utiliser Apidog gratuitement pour renforcer vos flux de travail IA de navigateur.

Tests de contrat d'API avec Apidog

bouton

Conseils pour une ingénierie de prompt efficace

Obtenez une automatisation plus précise en élaborant des invites claires et spécifiques :

Soyez spécifique :
"Go to kayak.com, search flights from Zurich to Beijing, 25.12.2025–02.02.2026, sort by price"
est mieux que
"Find flights."
Décomposez les tâches complexes :
par exemple, "Visit LinkedIn, search for ML jobs, save links to a file, apply to top 3."
Itérez et affinez :
Ajustez vos invites si les résultats ne sont pas ceux attendus. Tester dans le chat Open WebUI peut aider.

Débogage et dépannage

Vérifier les logs Ollama :
Situés dans ~/.ollama/logs, utiles pour diagnostiquer les erreurs de modèle.
Surveiller la sortie de Playwright :
Playwright enregistre toutes les actions et erreurs dans votre terminal.
Performance :
Si les modèles DeepSeek s'exécutent lentement, envisagez des modèles plus légers ou des configurations de calcul distribué.
Changer facilement de tâches :
Mettez à jour la chaîne de caractères task dans votre script pour automatiser différents flux de travail (par exemple, récupérer les étoiles GitHub, automatiser les flux de connexion).

Foire aux questions

Q1. Qu'est-ce que Browser Use ?
Un package Python pour l'automatisation de navigateur basée sur l'IA utilisant Playwright. GitHub

Q2. Ai-je besoin d'un GPU ?
Non requis pour les petits modèles comme DeepSeek/seed, mais les GPU accélèrent les modèles plus grands.

Q3. Puis-je utiliser d'autres modèles que DeepSeek ?
Oui, tout modèle capable de raisonner et supporté par Ollama peut fonctionner. GitHub

Q4. Mes données sont-elles traitées localement ?
Oui. L'exécution d'Ollama conserve les données et l'inférence sur votre machine, sauf configuration contraire. Chrome Web Store

Q5. Puis-je automatiser les connexions et les tâches multi-étapes ?
Absolument — définissez simplement votre tâche de haut niveau, et l'agent IA la décomposera.

Conclusion

Avec Python, Browser Use, Ollama et DeepSeek, vous pouvez construire des agents IA robustes qui automatisent de véritables navigateurs en utilisant des instructions en langage naturel. Cette pile est idéale pour les équipes axées sur les API qui ont besoin d'une automatisation fiable, privée et puissante — que ce soit pour le QA, l'intégration backend ou les tests avancés.

Ajoutez Apidog à votre flux de travail pour valider et tester les API avec lesquelles vos agents interagissent, en vous assurant que votre automatisation fonctionne toujours comme prévu.

Prêt à construire des agents de navigation intelligents ? Commencez dès aujourd'hui et rationalisez votre automatisation web en toute confiance.

bouton