KI-gesteuerte Browser-Automatisierung mit Python, Ollama & DeepSeek erstellen

Button

Die moderne Browserautomatisierung entwickelt sich rasant weiter. Vorbei sind die Zeiten spröder Selenium-Skripte und anfälliger Workflows. Mit Open-Source-Tools wie Browser Use, kombiniert mit lokalen LLM-Hosts wie Ollama und fortschrittlichen Reasoning Engines wie DeepSeek, können Entwickler jetzt KI-Agenten erstellen, die das Web durchsuchen, mit Formularen interagieren, Daten extrahieren und Aufgaben zuverlässig automatisieren – alles gesteuert durch natürliche Sprachbefehle.

In diesem Leitfaden erfahren Sie, wie Sie diesen leistungsstarken Stack einrichten, die Rolle jeder Komponente verstehen und einen Python-basierten KI-Agenten schreiben, der Ihren Browser programmatisch steuern kann. Egal, ob Sie API-Entwickler, Backend-Ingenieur oder QA-Spezialist sind, dieser Ansatz eröffnet neue Möglichkeiten für robuste, private und skalierbare Browserautomatisierung.

Warum Browser Use, Ollama und DeepSeek für die KI-Browserautomatisierung wählen?

Browser Use: Ein Python-Paket zur Orchestrierung von Browseraktionen (navigieren, klicken, extrahieren).
Ollama: Ein lokaler LLM-Server, der private, hochleistungsfähige Modellinferenz auf Ihrer Hardware ermöglicht.
DeepSeek: Eine fortschrittliche Reasoning Engine (z.B. deepseek/seed oder deepseek-r1), die High-Level-Anweisungen in ausführbare Browserschritte übersetzt.

Zusammen ermöglichen Ihnen diese Tools den Aufbau von KI-Agenten, die Folgendes können:

Web-Navigation und Datenextraktion automatisieren
Formulare ausfüllen und mit dynamischen Seiten interagieren
Mehrstufige Aufgaben basierend auf natürlichsprachlichen Prompts ausführen

Voraussetzungen: Einrichten Ihrer Entwicklungsumgebung

Bevor Sie loslegen, stellen Sie sicher, dass Ihr System die folgenden Anforderungen erfüllt:

Python 3.11+ (python --version)
Ollama (Download von ollama.com)
Node.js (node --version, erforderlich für Browserautomatisierung via Playwright)
Git (zum Klonen von Repositories)
Hardware: Mindestens 4 CPU-Kerne, 16GB RAM und 12GB freier Speicherplatz (für DeepSeek). Eine GPU ist optional, aber für große Modelle empfohlen.

Tipp: Installieren Sie fehlende Komponenten, um spätere Einrichtungsprobleme zu vermeiden.

Schritt-für-Schritt-Einrichtung: Aufbau Ihres KI-Browserautomatisierungsprojekts

1. Organisieren Sie Ihr Projekt

Erstellen Sie einen dedizierten Ordner für Ihre Arbeit:

mkdir browser-use-agent
cd browser-use-agent

2. Klonen Sie das Browser Use Repository

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. Erstellen und Aktivieren Sie eine Python Virtuelle Umgebung

Dies isoliert die Abhängigkeiten:

python -m venv venv
# Aktivieren:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

Sie sehen (venv) in Ihrem Terminal, was die Aktivierung bestätigt.

4. Öffnen Sie Ihr Projekt in VS Code

VS Code bietet hervorragende Python-Integration:

code .

Sie haben VS Code nicht? Laden Sie es herunter oder verwenden Sie Ihren bevorzugten Editor.

Ollama und DeepSeek lokal installieren

1. Ollama installieren

Laden Sie es von ollama.com herunter und installieren Sie es. Bestätigen Sie nach der Installation, dass es funktioniert:

ollama --version

2. Laden Sie das DeepSeek Modell herunter

Für hochwertiges Reasoning verwenden Sie das DeepSeek „Seed“-Modell:

ollama pull deepseek/seed

Hinweis: Das Modell ist ~12 GB groß. Wenn Speicher oder GPU begrenzt sind, versuchen Sie qwen2.5:14b (~4 GB).
Installation überprüfen:

ollama list

Suchen Sie nach deepseek-r1 oder Ihrem ausgewählten Modell.

Browser Use und erforderliche Abhängigkeiten installieren

1. Browser Use und Entwicklungstools installieren

Führen Sie in Ihrer virtuellen Umgebung aus:

pip install . ."[dev]"

2. LangChain und Ollama Integration hinzufügen

pip install langchain langchain-ollama

Diese Pakete verbinden Ihren Agenten mit dem lokalen LLM.

3. Playwright für die Browserautomatisierung installieren

playwright install

Sollten Probleme auftreten, stellen Sie sicher, dass Python 3.11+ aktiv ist, oder führen Sie aus:

playwright install-deps

Konfigurieren des Stacks: Browser Use mit Ollama & DeepSeek verbinden

Starten Sie den Ollama-Server in einem separaten Terminal:

ollama serve

Dies startet den LLM-Server unter http://localhost:11434. Lassen Sie diesen Server während Ihrer Arbeit laufen.

Beispiel: Erstellen Sie einen KI-Agenten, um das Wetter in Boston auf Google zu überprüfen

Erstellen wir ein Python-Skript, das Ihren KI-Agenten anweist, Google zu verwenden und das Wetter in Boston abzurufen.

Erstellen Sie test.py in Ihrem Projektordner und fügen Sie hinzu:

import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())

Stellen Sie sicher, dass VS Code den Python-Interpreter Ihrer virtuellen Umgebung verwendet
- Drücken Sie Strg+P (oder Befehl+P auf Mac)
- Geben Sie > Select Python Interpreter ein
- Wählen Sie den .venv-Interpreter aus Ihrem Projekt
Führen Sie das Skript aus:

python test.py

Der Agent startet einen Browser, sucht auf Google nach dem Wetter in Boston und gibt das Ergebnis aus.

Wenn Sie einen Fehler sehen, vergewissern Sie sich, dass Ollama läuft (ollama serve) und Port 11434 offen ist. Zur Fehlerbehebung überprüfen Sie die Protokolle unter ~/.ollama/logs.

Apidog integrieren: Zuverlässiges API-Testing für Browser-KI-Agenten

Wenn Ihr Browser-KI-Agent mit Web-APIs interagiert – wie dem Scraping von Endpunkten oder der Automatisierung API-gesteuerter Workflows – wird eine zuverlässige API-Vertragsvalidierung unerlässlich.

Wie Apidog hilft:

Automatisiertes API-Testing stellt sicher, dass Endpunkte wie erwartet funktionieren
Generiert und verwaltet API-Testfälle für Ihr Backend
Validiert API-Verträge über Staging- und Produktionsumgebungen hinweg

Apidog lässt sich nahtlos in Browser-Automatisierungspipelines integrieren, sodass Sie überprüfen können, ob die APIs, auf die sich Ihr Agent verlässt, robust und konsistent sind.

Beginnen Sie kostenlos mit Apidog, um Ihre Browser-KI-Workflows zu stärken.

API-Vertragstests mit Apidog

Button

Tipps für effektives Prompt Engineering

Erzielen Sie genauere Automatisierung durch die Erstellung klarer, spezifischer Prompts:

Seien Sie spezifisch:
"Gehe zu kayak.com, suche Flüge von Zürich nach Peking, 25.12.2025–02.02.2026, sortiere nach Preis"
ist besser als
"Finde Flüge."
Komplexe Aufgaben aufteilen:
z.B. "Besuche LinkedIn, suche nach ML-Jobs, speichere Links in einer Datei, bewirb dich auf die Top 3."
Iterieren und Verfeinern:
Passen Sie Ihre Prompts an, wenn die Ergebnisse nicht den Erwartungen entsprechen. Tests im Open WebUI Chat können helfen.

Debugging und Fehlerbehebung

Ollama Logs überprüfen:
Befindet sich unter ~/.ollama/logs, nützlich zur Diagnose von Modellfehlern.
Playwright Ausgabe überwachen:
Playwright protokolliert alle Aktionen und Fehler in Ihrem Terminal.
Leistung:
Wenn DeepSeek-Modelle langsam laufen, ziehen Sie leichtere Modelle oder verteilte Rechen-Setups in Betracht.
Aufgaben einfach ändern:
Aktualisieren Sie den task-String in Ihrem Skript, um verschiedene Workflows zu automatisieren (z.B. GitHub-Stars scrapen, Login-Flows automatisieren).

Häufig gestellte Fragen

F1. Was ist Browser Use?
Ein Python-Paket für KI-gesteuerte Browserautomatisierung mit Playwright. GitHub

F2. Benötige ich eine GPU?
Nicht erforderlich für kleinere Modelle wie DeepSeek/seed, aber GPUs beschleunigen größere Modelle.

F3. Kann ich andere Modelle als DeepSeek verwenden?
Ja, jedes reasoning-fähige Modell, das von Ollama unterstützt wird, kann funktionieren. GitHub

F4. Werden meine Daten lokal verarbeitet?
Ja. Der Betrieb von Ollama hält Daten und Inferenz auf Ihrem Rechner, sofern nicht anders konfiguriert. Chrome Web Store

F5. Kann ich Logins und mehrstufige Aufgaben automatisieren?
Absolut – definieren Sie einfach Ihre übergeordnete Aufgabe, und der KI-Agent wird sie aufschlüsseln.

Fazit

Mit Python, Browser Use, Ollama und DeepSeek können Sie robuste KI-Agenten erstellen, die echte Browser mithilfe natürlicher Sprachbefehle automatisieren. Dieser Stack ist ideal für API-gesteuerte Teams, die eine zuverlässige, private und leistungsstarke Automatisierung benötigen – sei es für QA, Backend-Integration oder fortgeschrittene Tests.

Fügen Sie Apidog zu Ihrem Workflow hinzu, um die APIs, mit denen Ihre Agenten interagieren, zu validieren und zu testen und so sicherzustellen, dass Ihre Automatisierung immer wie beabsichtigt funktioniert.

Bereit, intelligente Browser-Agenten zu erstellen? Starten Sie noch heute und optimieren Sie Ihre Webautomatisierung mit Zuversicht.

Button