Die moderne Browserautomatisierung entwickelt sich rasant weiter. Vorbei sind die Zeiten spröder Selenium-Skripte und anfälliger Workflows. Mit Open-Source-Tools wie Browser Use, kombiniert mit lokalen LLM-Hosts wie Ollama und fortschrittlichen Reasoning Engines wie DeepSeek, können Entwickler jetzt KI-Agenten erstellen, die das Web durchsuchen, mit Formularen interagieren, Daten extrahieren und Aufgaben zuverlässig automatisieren – alles gesteuert durch natürliche Sprachbefehle.
In diesem Leitfaden erfahren Sie, wie Sie diesen leistungsstarken Stack einrichten, die Rolle jeder Komponente verstehen und einen Python-basierten KI-Agenten schreiben, der Ihren Browser programmatisch steuern kann. Egal, ob Sie API-Entwickler, Backend-Ingenieur oder QA-Spezialist sind, dieser Ansatz eröffnet neue Möglichkeiten für robuste, private und skalierbare Browserautomatisierung.
Warum Browser Use, Ollama und DeepSeek für die KI-Browserautomatisierung wählen?
- Browser Use: Ein Python-Paket zur Orchestrierung von Browseraktionen (navigieren, klicken, extrahieren).
- Ollama: Ein lokaler LLM-Server, der private, hochleistungsfähige Modellinferenz auf Ihrer Hardware ermöglicht.
- DeepSeek: Eine fortschrittliche Reasoning Engine (z.B. deepseek/seed oder deepseek-r1), die High-Level-Anweisungen in ausführbare Browserschritte übersetzt.
Zusammen ermöglichen Ihnen diese Tools den Aufbau von KI-Agenten, die Folgendes können:
- Web-Navigation und Datenextraktion automatisieren
- Formulare ausfüllen und mit dynamischen Seiten interagieren
- Mehrstufige Aufgaben basierend auf natürlichsprachlichen Prompts ausführen
Voraussetzungen: Einrichten Ihrer Entwicklungsumgebung
Bevor Sie loslegen, stellen Sie sicher, dass Ihr System die folgenden Anforderungen erfüllt:
- Python 3.11+ (
python --version) - Ollama (Download von ollama.com)
- Node.js (
node --version, erforderlich für Browserautomatisierung via Playwright) - Git (zum Klonen von Repositories)
- Hardware: Mindestens 4 CPU-Kerne, 16GB RAM und 12GB freier Speicherplatz (für DeepSeek). Eine GPU ist optional, aber für große Modelle empfohlen.
Tipp: Installieren Sie fehlende Komponenten, um spätere Einrichtungsprobleme zu vermeiden.
Schritt-für-Schritt-Einrichtung: Aufbau Ihres KI-Browserautomatisierungsprojekts
1. Organisieren Sie Ihr Projekt
Erstellen Sie einen dedizierten Ordner für Ihre Arbeit:
mkdir browser-use-agent
cd browser-use-agent
2. Klonen Sie das Browser Use Repository
git clone https://github.com/browser-use/browser-use.git
cd browser-use
3. Erstellen und Aktivieren Sie eine Python Virtuelle Umgebung
Dies isoliert die Abhängigkeiten:
python -m venv venv
# Aktivieren:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate
Sie sehen (venv) in Ihrem Terminal, was die Aktivierung bestätigt.
4. Öffnen Sie Ihr Projekt in VS Code
VS Code bietet hervorragende Python-Integration:
code .
Sie haben VS Code nicht? Laden Sie es herunter oder verwenden Sie Ihren bevorzugten Editor.
Ollama und DeepSeek lokal installieren
1. Ollama installieren
Laden Sie es von ollama.com herunter und installieren Sie es. Bestätigen Sie nach der Installation, dass es funktioniert:
ollama --version

2. Laden Sie das DeepSeek Modell herunter
Für hochwertiges Reasoning verwenden Sie das DeepSeek „Seed“-Modell:
ollama pull deepseek/seed
- Hinweis: Das Modell ist ~12 GB groß. Wenn Speicher oder GPU begrenzt sind, versuchen Sie
qwen2.5:14b(~4 GB). - Installation überprüfen:
ollama list
Suchen Sie nach deepseek-r1 oder Ihrem ausgewählten Modell.

Browser Use und erforderliche Abhängigkeiten installieren
1. Browser Use und Entwicklungstools installieren
Führen Sie in Ihrer virtuellen Umgebung aus:
pip install . ."[dev]"
2. LangChain und Ollama Integration hinzufügen
pip install langchain langchain-ollama
Diese Pakete verbinden Ihren Agenten mit dem lokalen LLM.
3. Playwright für die Browserautomatisierung installieren
playwright install
Sollten Probleme auftreten, stellen Sie sicher, dass Python 3.11+ aktiv ist, oder führen Sie aus:
playwright install-deps
Konfigurieren des Stacks: Browser Use mit Ollama & DeepSeek verbinden
Starten Sie den Ollama-Server in einem separaten Terminal:
ollama serve
Dies startet den LLM-Server unter http://localhost:11434. Lassen Sie diesen Server während Ihrer Arbeit laufen.
Beispiel: Erstellen Sie einen KI-Agenten, um das Wetter in Boston auf Google zu überprüfen
Erstellen wir ein Python-Skript, das Ihren KI-Agenten anweist, Google zu verwenden und das Wetter in Boston abzurufen.
- Erstellen Sie
test.pyin Ihrem Projektordner und fügen Sie hinzu:
import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama
# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
agent = Agent(
task="Use Google to find the weather in Boston, Massachusetts",
llm=ChatOllama(
model="deepseek/seed",
num_ctx=32000,
),
max_actions_per_step=3,
tool_call_in_content=False,
)
result = await agent.run(max_steps=15)
return result
async def main():
result = await run_search()
print("\n\n", result)
if __name__ == "__main__":
asyncio.run(main())
- Stellen Sie sicher, dass VS Code den Python-Interpreter Ihrer virtuellen Umgebung verwendet
- Drücken Sie
Strg+P(oderBefehl+Pauf Mac) - Geben Sie
> Select Python Interpreterein - Wählen Sie den
.venv-Interpreter aus Ihrem Projekt
- Drücken Sie
- Führen Sie das Skript aus:
python test.py
Der Agent startet einen Browser, sucht auf Google nach dem Wetter in Boston und gibt das Ergebnis aus.

Wenn Sie einen Fehler sehen, vergewissern Sie sich, dass Ollama läuft (ollama serve) und Port 11434 offen ist. Zur Fehlerbehebung überprüfen Sie die Protokolle unter ~/.ollama/logs.

Apidog integrieren: Zuverlässiges API-Testing für Browser-KI-Agenten
Wenn Ihr Browser-KI-Agent mit Web-APIs interagiert – wie dem Scraping von Endpunkten oder der Automatisierung API-gesteuerter Workflows – wird eine zuverlässige API-Vertragsvalidierung unerlässlich.
Wie Apidog hilft:
- Automatisiertes API-Testing stellt sicher, dass Endpunkte wie erwartet funktionieren
- Generiert und verwaltet API-Testfälle für Ihr Backend
- Validiert API-Verträge über Staging- und Produktionsumgebungen hinweg
Apidog lässt sich nahtlos in Browser-Automatisierungspipelines integrieren, sodass Sie überprüfen können, ob die APIs, auf die sich Ihr Agent verlässt, robust und konsistent sind.
Beginnen Sie kostenlos mit Apidog, um Ihre Browser-KI-Workflows zu stärken.

API-Vertragstests mit Apidog
Tipps für effektives Prompt Engineering
Erzielen Sie genauere Automatisierung durch die Erstellung klarer, spezifischer Prompts:
- Seien Sie spezifisch:
"Gehe zu kayak.com, suche Flüge von Zürich nach Peking, 25.12.2025–02.02.2026, sortiere nach Preis"
ist besser als"Finde Flüge." - Komplexe Aufgaben aufteilen:
z.B."Besuche LinkedIn, suche nach ML-Jobs, speichere Links in einer Datei, bewirb dich auf die Top 3." - Iterieren und Verfeinern:
Passen Sie Ihre Prompts an, wenn die Ergebnisse nicht den Erwartungen entsprechen. Tests im Open WebUI Chat können helfen.
Debugging und Fehlerbehebung
- Ollama Logs überprüfen:
Befindet sich unter~/.ollama/logs, nützlich zur Diagnose von Modellfehlern. - Playwright Ausgabe überwachen:
Playwright protokolliert alle Aktionen und Fehler in Ihrem Terminal. - Leistung:
Wenn DeepSeek-Modelle langsam laufen, ziehen Sie leichtere Modelle oder verteilte Rechen-Setups in Betracht. - Aufgaben einfach ändern:
Aktualisieren Sie dentask-String in Ihrem Skript, um verschiedene Workflows zu automatisieren (z.B. GitHub-Stars scrapen, Login-Flows automatisieren).
Häufig gestellte Fragen
F1. Was ist Browser Use?
Ein Python-Paket für KI-gesteuerte Browserautomatisierung mit Playwright. GitHub
F2. Benötige ich eine GPU?
Nicht erforderlich für kleinere Modelle wie DeepSeek/seed, aber GPUs beschleunigen größere Modelle.
F3. Kann ich andere Modelle als DeepSeek verwenden?
Ja, jedes reasoning-fähige Modell, das von Ollama unterstützt wird, kann funktionieren. GitHub
F4. Werden meine Daten lokal verarbeitet?
Ja. Der Betrieb von Ollama hält Daten und Inferenz auf Ihrem Rechner, sofern nicht anders konfiguriert. Chrome Web Store
F5. Kann ich Logins und mehrstufige Aufgaben automatisieren?
Absolut – definieren Sie einfach Ihre übergeordnete Aufgabe, und der KI-Agent wird sie aufschlüsseln.
Fazit
Mit Python, Browser Use, Ollama und DeepSeek können Sie robuste KI-Agenten erstellen, die echte Browser mithilfe natürlicher Sprachbefehle automatisieren. Dieser Stack ist ideal für API-gesteuerte Teams, die eine zuverlässige, private und leistungsstarke Automatisierung benötigen – sei es für QA, Backend-Integration oder fortgeschrittene Tests.
Fügen Sie Apidog zu Ihrem Workflow hinzu, um die APIs, mit denen Ihre Agenten interagieren, zu validieren und zu testen und so sicherzustellen, dass Ihre Automatisierung immer wie beabsichtigt funktioniert.
Bereit, intelligente Browser-Agenten zu erstellen? Starten Sie noch heute und optimieren Sie Ihre Webautomatisierung mit Zuversicht.
