KI-gesteuerte Browser-Automatisierung mit Python, Ollama & DeepSeek erstellen

Erfahren Sie, wie Sie robuste KI-Browser-Automatisierungsagenten mit Python, der Browsernutzung, Ollama und DeepSeek entwickeln. Dieser Schritt-für-Schritt-Leitfaden behandelt die Einrichtung, Codebeispiele und wie Apidog eine zuverlässige API-Integration für Entwickler und QS-Teams gewährleistet.

Ashley Goolam

Ashley Goolam

23 June 2026

KI-gesteuerte Browser-Automatisierung mit Python, Ollama & DeepSeek erstellen

Apidog für Unternehmen

On-Premises Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken
Button

Die moderne Browserautomatisierung entwickelt sich rasant weiter. Vorbei sind die Zeiten spröder Selenium-Skripte und anfälliger Workflows. Mit Open-Source-Tools wie Browser Use, kombiniert mit lokalen LLM-Hosts wie Ollama und fortschrittlichen Reasoning Engines wie DeepSeek, können Entwickler jetzt KI-Agenten erstellen, die das Web durchsuchen, mit Formularen interagieren, Daten extrahieren und Aufgaben zuverlässig automatisieren – alles gesteuert durch natürliche Sprachbefehle.

In diesem Leitfaden erfahren Sie, wie Sie diesen leistungsstarken Stack einrichten, die Rolle jeder Komponente verstehen und einen Python-basierten KI-Agenten schreiben, der Ihren Browser programmatisch steuern kann. Egal, ob Sie API-Entwickler, Backend-Ingenieur oder QA-Spezialist sind, dieser Ansatz eröffnet neue Möglichkeiten für robuste, private und skalierbare Browserautomatisierung.

Warum Browser Use, Ollama und DeepSeek für die KI-Browserautomatisierung wählen?

Zusammen ermöglichen Ihnen diese Tools den Aufbau von KI-Agenten, die Folgendes können:

Voraussetzungen: Einrichten Ihrer Entwicklungsumgebung

Bevor Sie loslegen, stellen Sie sicher, dass Ihr System die folgenden Anforderungen erfüllt:

Tipp: Installieren Sie fehlende Komponenten, um spätere Einrichtungsprobleme zu vermeiden.

Schritt-für-Schritt-Einrichtung: Aufbau Ihres KI-Browserautomatisierungsprojekts

1. Organisieren Sie Ihr Projekt

Erstellen Sie einen dedizierten Ordner für Ihre Arbeit:

mkdir browser-use-agent
cd browser-use-agent

2. Klonen Sie das Browser Use Repository

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. Erstellen und Aktivieren Sie eine Python Virtuelle Umgebung

Dies isoliert die Abhängigkeiten:

python -m venv venv
# Aktivieren:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

Sie sehen (venv) in Ihrem Terminal, was die Aktivierung bestätigt.

4. Öffnen Sie Ihr Projekt in VS Code

VS Code bietet hervorragende Python-Integration:

code .

Sie haben VS Code nicht? Laden Sie es herunter oder verwenden Sie Ihren bevorzugten Editor.

Ollama und DeepSeek lokal installieren

1. Ollama installieren

Laden Sie es von ollama.com herunter und installieren Sie es. Bestätigen Sie nach der Installation, dass es funktioniert:

ollama --version
Ollama herunterladen

2. Laden Sie das DeepSeek Modell herunter

Für hochwertiges Reasoning verwenden Sie das DeepSeek „Seed“-Modell:

ollama pull deepseek/seed
ollama list

Suchen Sie nach deepseek-r1 oder Ihrem ausgewählten Modell.

DeepSeek Modell herunterladen

Browser Use und erforderliche Abhängigkeiten installieren

1. Browser Use und Entwicklungstools installieren

Führen Sie in Ihrer virtuellen Umgebung aus:

pip install . ."[dev]"

2. LangChain und Ollama Integration hinzufügen

pip install langchain langchain-ollama

Diese Pakete verbinden Ihren Agenten mit dem lokalen LLM.

3. Playwright für die Browserautomatisierung installieren

playwright install

Sollten Probleme auftreten, stellen Sie sicher, dass Python 3.11+ aktiv ist, oder führen Sie aus:

playwright install-deps

Konfigurieren des Stacks: Browser Use mit Ollama & DeepSeek verbinden

Starten Sie den Ollama-Server in einem separaten Terminal:

ollama serve

Dies startet den LLM-Server unter http://localhost:11434. Lassen Sie diesen Server während Ihrer Arbeit laufen.

Beispiel: Erstellen Sie einen KI-Agenten, um das Wetter in Boston auf Google zu überprüfen

Erstellen wir ein Python-Skript, das Ihren KI-Agenten anweist, Google zu verwenden und das Wetter in Boston abzurufen.

  1. Erstellen Sie test.py in Ihrem Projektordner und fügen Sie hinzu:
import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())
  1. Stellen Sie sicher, dass VS Code den Python-Interpreter Ihrer virtuellen Umgebung verwendet
    • Drücken Sie Strg+P (oder Befehl+P auf Mac)
    • Geben Sie > Select Python Interpreter ein
    • Wählen Sie den .venv-Interpreter aus Ihrem Projekt
  2. Führen Sie das Skript aus:
python test.py

Der Agent startet einen Browser, sucht auf Google nach dem Wetter in Boston und gibt das Ergebnis aus.

Browser Use Suche

Wenn Sie einen Fehler sehen, vergewissern Sie sich, dass Ollama läuft (ollama serve) und Port 11434 offen ist. Zur Fehlerbehebung überprüfen Sie die Protokolle unter ~/.ollama/logs.

Browser Use Suchergebnis

Apidog integrieren: Zuverlässiges API-Testing für Browser-KI-Agenten

Wenn Ihr Browser-KI-Agent mit Web-APIs interagiert – wie dem Scraping von Endpunkten oder der Automatisierung API-gesteuerter Workflows – wird eine zuverlässige API-Vertragsvalidierung unerlässlich.

Wie Apidog hilft:

Apidog lässt sich nahtlos in Browser-Automatisierungspipelines integrieren, sodass Sie überprüfen können, ob die APIs, auf die sich Ihr Agent verlässt, robust und konsistent sind.

Beginnen Sie kostenlos mit Apidog, um Ihre Browser-KI-Workflows zu stärken.

API-Vertragstests mit Apidog

API-Vertragstests mit Apidog

Button

Tipps für effektives Prompt Engineering

Erzielen Sie genauere Automatisierung durch die Erstellung klarer, spezifischer Prompts:

Debugging und Fehlerbehebung

Häufig gestellte Fragen

F1. Was ist Browser Use?
Ein Python-Paket für KI-gesteuerte Browserautomatisierung mit Playwright. GitHub

F2. Benötige ich eine GPU?
Nicht erforderlich für kleinere Modelle wie DeepSeek/seed, aber GPUs beschleunigen größere Modelle.

F3. Kann ich andere Modelle als DeepSeek verwenden?
Ja, jedes reasoning-fähige Modell, das von Ollama unterstützt wird, kann funktionieren. GitHub

F4. Werden meine Daten lokal verarbeitet?
Ja. Der Betrieb von Ollama hält Daten und Inferenz auf Ihrem Rechner, sofern nicht anders konfiguriert. Chrome Web Store

F5. Kann ich Logins und mehrstufige Aufgaben automatisieren?
Absolut – definieren Sie einfach Ihre übergeordnete Aufgabe, und der KI-Agent wird sie aufschlüsseln.

Fazit

Mit Python, Browser Use, Ollama und DeepSeek können Sie robuste KI-Agenten erstellen, die echte Browser mithilfe natürlicher Sprachbefehle automatisieren. Dieser Stack ist ideal für API-gesteuerte Teams, die eine zuverlässige, private und leistungsstarke Automatisierung benötigen – sei es für QA, Backend-Integration oder fortgeschrittene Tests.

Fügen Sie Apidog zu Ihrem Workflow hinzu, um die APIs, mit denen Ihre Agenten interagieren, zu validieren und zu testen und so sicherzustellen, dass Ihre Automatisierung immer wie beabsichtigt funktioniert.

Bereit, intelligente Browser-Agenten zu erstellen? Starten Sie noch heute und optimieren Sie Ihre Webautomatisierung mit Zuversicht.

Button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen