CUA testen: der MCP-Server für Computer Use Agents, hier sind meine Eindrücke

CUA, das Computer-Use Agent Framework, und sein schlanker MCP-Server, Cua, ermöglichen es KI-Agenten, Ihr macOS- oder Linux-System mit natürlicher Sprache zu steuern. Ich habe mich in die Einrichtung des CUA MCP-Servers auf meinem Apple Silicon Mac vertieft, und ich kann Ihnen sagen – es ist ein Game-Changer für die Automatisierung von Aufgaben vor Ort. In diesem Leitfaden für Anfänger teile ich meine Erfahrungen mit der Installation und dem Testen des CUA MCP-Servers, mit einem unterhaltsamen Beispiel: ihn ein Terminal öffnen und Verzeichnisinhalte auflisten zu lassen. Keine technischen Kenntnisse erforderlich – nur ein bisschen Neugier! Bereit, Ihre KI in einen Computer-Flüsterer zu verwandeln? Los geht's!

💡

Möchten Sie ein großartiges API-Testtool, das wunderschöne API-Dokumentation generiert?

Möchten Sie eine integrierte All-in-One-Plattform für Ihr Entwicklerteam, um mit maximaler Produktivität zusammenzuarbeiten?

Apidog liefert alle Ihre Anforderungen und ersetzt Postman zu einem viel günstigeren Preis!

button

Was ist Cua und der CUA MCP-Server?

CUA (Computer-Use Agent) ist ein Open-Source-Framework, das es KI-Agenten ermöglicht, mit Ihrem Computer zu interagieren – denken Sie an Bildschirmsteuerung, Tastatur-/Maus-Automatisierung und sandboxed virtuelle Maschinen (VMs) unter macOS und Linux, insbesondere Apple Silicon. Der Cua MCP-Server ist seine Model Context Protocol (MCP)-Komponente, die als Brücke fungiert, damit KI-Clients wie Claude Desktop oder Cursor CUA-Aufgaben über natürliche Sprache ausführen können. Es ist, als würde man Ihrer KI eine Fernbedienung für Ihr System geben, die Befehle sicher ausführt, ohne Cloud-Abhängigkeiten. Wir werden es einrichten und mit einer einfachen Aufgabe testen, während wir alles privat und unterhaltsam halten. Lasst uns eintauchen

Einrichten Ihrer Umgebung: Vorbereitung für CUA

Bevor wir den CUA MCP-Server starten, bereiten wir Ihr System vor. Dies ist anfängerfreundlich, wobei jeder Schritt erklärt wird, damit Sie auf dem Laufenden bleiben.

1. Prüfen Sie die Voraussetzungen: Stellen Sie sicher, dass Sie diese Tools bereit haben:

Python: Version 3.10 oder höher. Führen Sie python --version in Ihrem Terminal aus. Wenn es fehlt oder veraltet ist, laden Sie es von python.org herunter. Python treibt die Skripte und den Server von CUA an.
Git: Benötigt, um das Cua-Repository zu klonen. Überprüfen Sie mit git --version. Installieren Sie es von git-scm.com, falls erforderlich.
Docker: Erforderlich für die containerisierte Einrichtung des MCP-Servers. Laden Sie es von docker.com herunter und überprüfen Sie es mit docker --version.
Hardware: Ein Mac mit Apple Silicon (M1/M2/M3) oder ein Linux-System, 4+ Core CPU, 16 GB+ RAM und 10 GB+ freier Speicher für Abhängigkeiten.Fehlt etwas? Installieren Sie es jetzt, um Probleme zu vermeiden.

2. Erstellen Sie einen Projektordner: Lassen Sie uns die Dinge mit einem dedizierten Ordner übersichtlich halten:

mkdir cua-mcp-test
cd cua-mcp-test

Dieser Ordner enthält Ihr CUA-Projekt, und cd bereitet Sie auf die nächsten Schritte vor.

3. Klonen Sie das Cua-Repository: Holen Sie sich den CUA-Quellcode von GitHub:

git clone https://github.com/trycua/cua.git
cd cua

Der git clone holt das Cua-Repository ab, einschließlich des MCP-Server-Codes in libs/mcp-server. Das cd cua verschiebt Sie in das Projektverzeichnis.

4. Richten Sie eine virtuelle Umgebung ein: Um Paketkonflikte zu vermeiden, erstellen Sie eine virtuelle Python-Umgebung:

python -m venv venv

Aktivieren Sie sie:

Mac/Linux: source venv/bin/activate
Windows: venv\Scripts\activateSeeing (venv) in Ihrem Terminal bedeutet, dass Sie sich in einer sauberen Python-Umgebung befinden, die die Abhängigkeiten von CUA isoliert.

5. In VS Code öffnen: Starten Sie das Projekt in Visual Studio Code, um das Codieren zu erleichtern:

code .

VS Code öffnet den cua-Ordner, bereit zum Skripten. Wenn Sie VS Code nicht haben, holen Sie es sich von code.visualstudio.com oder verwenden Sie einen anderen Editor, aber die Python-Integration von VS Code ist erstklassig.

Installieren des CUA MCP-Servers

Installieren wir den CUA MCP-Server, um mit Claude 3.7 zu arbeiten. Wir verwenden ein einfaches Skript für eine problemlose Einrichtung, um sicherzustellen, dass alle Abhängigkeiten vorhanden sind.

1. Führen Sie das Easy Setup-Skript aus: Das CUA-Repository stellt eine Einzeile bereit, um die Installation zu vereinfachen:

curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/mcp-server/scripts/install_mcp_server.sh | bash

Dieses Skript erledigt eine Menge Arbeit:

Erstellt das Verzeichnis ~/.cua, falls es nicht existiert.
Generiert ein Startskript unter ~/.cua/start_mcp_server.sh.
Macht das Skript ausführbar.
Verwaltet virtuelle Python-Umgebungen und installiert/aktualisiert das cua-mcp-server-Paket.Es ist auf macOS und Linux zugeschnitten und verwendet Docker für einen containerisierten Server. Erwarten Sie, dass es eine Minute dauert, da es Abhängigkeiten abruft.

2. Installieren Sie Python-Abhängigkeiten: Wenn Sie die manuelle Installation bevorzugen oder auf Probleme stoßen, installieren Sie den CUA MCP-Server direkt:

pip install cua-mcp-server

Dies installiert:

Den MCP-Server selbst.
CUA-Agenten- und Computerabhängigkeiten (z. B. für Bildschirmsteuerung, Tastatur-/Maus-Automatisierung).
Ein ausführbares cua-mcp-server-Skript in Ihrem PATH.

3. Überprüfen Sie Docker: Der MCP-Server wird in einem Docker-Container ausgeführt, also stellen Sie sicher, dass Docker aktiv ist:

docker ps

Wenn Docker nicht ausgeführt wird, starten Sie es über Docker Desktop (Mac) oder sudo systemctl start docker (Linux). Dies ist entscheidend für die sandboxed Umgebung des Servers.

Konfigurieren des CUA MCP-Servers für Claude Desktop

Konfigurieren wir nun den CUA MCP-Server, um mit Claude 3.7 in Claude Desktop zu arbeiten, und richten die erforderlichen API-Schlüssel und Umgebungsvariablen ein.

1. Holen Sie sich einen Anthropic API-Schlüssel: Melden Sie sich unter anthropic.com an, navigieren Sie zum API-Bereich und generieren Sie einen API-Schlüssel. Speichern Sie ihn sicher (geben Sie ihn nicht weiter!). Mit diesem Schlüssel kann Claude 3.7 mit dem CUA MCP-Server kommunizieren.

2. Aktualisieren Sie die Claude Desktop-Konfiguration: Fügen Sie den CUA MCP-Server zur Konfigurationsdatei von Claude Desktop hinzu, normalerweise unter ~/.config/claude-desktop/claude_desktop_config.json (Mac). Erstellen Sie sie, falls sie nicht existiert:

{
  "mcpServers": {
    "cua-agent": {
      "command": "/bin/bash",
      "args": ["~/.cua/start_mcp_server.sh"],
      "env": {
        "CUA_AGENT_LOOP": "OMNI",
        "CUA_MODEL_PROVIDER": "ANTHROPIC",
        "CUA_MODEL_NAME": "claude-3-7-sonnet-20250219",
        "ANTHROPIC_API_KEY": "your-api-key"
      }
    }
  }
}

Ersetzen Sie your-api-key durch Ihren Anthropic API-Schlüssel. Diese Konfiguration:

Verwendet das Startskript aus dem Installationsschritt.
Stellt die Agentenschleife auf OMNI für eine flexible Aufgabenbearbeitung ein.
Gibt Claude 3.7 (claude-3-7-sonnet-20250219) als Modell an.
Gibt den API-Schlüssel sicher weiter.Speichern Sie die Datei am richtigen Ort. Weitere Einzelheiten finden Sie im MCP-Benutzerhandbuch von Anthropic.

3. Optional: Cursor-Integration: Möchten Sie CUA mit Cursor verwenden? Erstellen Sie eine MCP-Konfigurationsdatei:

Projektspezifisch: Fügen Sie .cursor/mcp.json in Ihrem Projektverzeichnis hinzu.
Global: Fügen Sie ~/.cursor/mcp.json in Ihrem Home-Verzeichnis hinzu.Verwenden Sie die gleiche mcpServers-Konfiguration wie oben. Sagen Sie dann im Agenten-Chat von Cursor: „Verwenden Sie die Computersteuerungstools, um Safari zu öffnen“, und CUA übernimmt. Weitere Informationen finden Sie in der MCP-Dokumentation von Cursor.

Testen Ihres CUA MCP-Servers mit Claude 3.7

Zeit, den CUA MCP-Server zu testen, indem Claude 3.7 ein Terminal öffnen und Verzeichnisinhalte auflisten lässt! Wir erstellen ein Skript, um die Aufgabe zu simulieren, und führen es in VS Code aus.

1. Erstellen Sie ein Testskript: Erstellen Sie in VS Code mit Ihrem Cua-Projekt ein Datei namens test.py im Cua-Ordner. Fügen Sie diesen Code ein:

import os
import asyncio
from computer import Computer
from agent import ComputerAgent, LLM, AgentLoop, LLMProvider

async def run_task() -> str:
    async with Computer(verbosity='DEBUG') as computer:
        agent = ComputerAgent(
            computer=computer,
            loop=AgentLoop.OMNI,
            model=LLM(
                provider=LLMProvider.ANTHROPIC,
                model_name="claude-3-7-sonnet-20250219",
                api_key="your-api-key"
            )
        )
        task = "Open a terminal and list the contents of the current directory"
        async for result in agent.run(task):
            return result

async def main():
    result = await run_task()
    print("\n\nResult:", result)

if __name__ == "__main__":
    asyncio.run(main())

Ersetzen Sie your-api-key durch Ihren Anthropic API-Schlüssel (oder legen Sie ANTHROPIC_API_KEY als Umgebungsvariable in Ihrem Shell-Profil fest). Dieses Skript:

Initialisiert einen CUA-Computer für die Systeminteraktion.
Richtet einen ComputerAgent mit Claude 3.7 über die API von Anthropic ein.
Beauftragt den Agenten, ein Terminal zu öffnen (z. B. Terminal.app unter macOS) und ls auszuführen.
Gibt das Ergebnis aus, z. B. eine Liste von Dateien.

2. Wählen Sie den Python-Interpreter in VS Code aus: Stellen Sie sicher, dass VS Code die Python-Umgebung Ihres Projekts verwendet:

Drücken Sie Strg + P (oder Cmd + P auf dem Mac).
Geben Sie > Select Python Interpreter ein und drücken Sie die Eingabetaste.
Wählen Sie den Interpreter aus Ihrer virtuellen Umgebung (z. B. ./venv/bin/python).Dadurch wird sichergestellt, dass die Abhängigkeiten von CUA verfügbar sind, wodurch Fehler vom Typ „Modul nicht gefunden“ verhindert werden.

3. Führen Sie das Skript aus: Stellen Sie sicher, dass Docker ausgeführt wird und die Claude Desktop-Konfiguration festgelegt ist. Klicken Sie bei geöffneter test.py auf die Schaltfläche „Ausführen“ in VS Code (Dreieck oben rechts) oder im Terminal (mit aktiver virtueller Umgebung):

python test.py

Der CUA MCP-Server wird gestartet, Claude 3.7 verarbeitet die Aufgabe, und ein Terminal wird geöffnet, in dem ls ausgeführt wird. Ich habe „Result: cua test.py venv“ auf meinem Mac erhalten – ziemlich elegant! Wenn es fehlschlägt, überprüfen Sie Docker, den API-Schlüssel und Port 11434 (bei Verwendung von Ollama-Fallback). Überprüfen Sie ~/Library/Logs/Claude/mcp*.log (Mac) auf Debug-Informationen.

4. Testen Sie in Claude Desktop: Öffnen Sie Claude Desktop, geben Sie Folgendes ein: „Öffnen Sie ein Terminal und listen Sie den Inhalt des aktuellen Verzeichnisses auf.“ Claude verwendet den CUA MCP-Server, um die Aufgabe auszuführen, und zeigt die Ergebnisse im Chat an. Mein Test listete meine Projektdateien sofort auf!

Verfügbare CUA-Tools und -Verwendung

Der CUA MCP-Server stellt Claude 3.7 zwei leistungsstarke Tools zur Verfügung:

run_cua_task: Führt eine einzelne Aufgabe aus, z. B. „Öffnen Sie Chrome und gehen Sie zu github.com.“
run_multi_cua_tasks: Führt mehrere Aufgaben nacheinander aus, z. B. „Erstellen Sie einen Ordner namens ‚Projekte‘ auf meinem Desktop und öffnen Sie ihn dann.“

Sie können diese in Claude Desktop oder Cursor verwenden, indem Sie fragen:

„Erstellen Sie einen Ordner namens ‚Projekte‘ auf meinem Desktop.“
„Finden Sie alle PDFs in meinem Downloads-Ordner.“
„Machen Sie einen Screenshot und markieren Sie die Fehlermeldung.“

Claude leitet diese automatisch an den CUA-Agenten weiter, wodurch die Automatisierung zum Kinderspiel wird.

Meine Meinung zu CUA mit Claude 3.7

Nachdem ich CUA mit Claude 3.7 getestet habe, hier meine Stimmung:

Lokales Kraftwerk: Wenn ich alles auf meinem Mac ausführe, bleiben die Daten privat – keine Cloud erforderlich.
Claude 3.7 glänzt: Seine Argumentation lässt Aufgaben wie Terminalbefehle mühelos erscheinen.
Einrichtungsprobleme: Docker und die API-Schlüsselkonfiguration erforderten etwas Fummeln, aber das Installationsskript sparte Zeit.
Unendliches Potenzial: Vom Öffnen von Apps bis zum Verwalten von Dateien fühlt sich CUA wie eine Superkraft an.

Wenn Sie auf Probleme stoßen, überprüfen Sie Docker und Ihren API-Schlüssel noch einmal und überfliegen Sie die CUA GitHub-Probleme nach Lösungen.

Profi-Tipps für CUA-Erfolg

Debug-Protokolle: Überprüfen Sie die Claude-Protokolle (~/Library/Logs/Claude/mcp*.log) oder Docker-Protokolle (docker logs) auf Fehler.
Probieren Sie neue Aufgaben aus: Bitten Sie Claude, „einen Browser zu öffnen und zu github.com zu gehen“ oder „eine Datei namens hello.txt“ in test.py oder der Desktop-App zu erstellen.
Konfiguration optimieren: Legen Sie CUA_MAX_IMAGES=5 in der Konfiguration fest, um mehr Screenshots im Kontext für Aufgaben wie „Einen Fehler hervorheben“ zu behalten.

Abschließende Gedanken: Ihr CUA- und Claude 3.7-Abenteuer beginnt

Sie haben es geschafft – Sie haben den CUA MCP-Server eingerichtet und Claude 3.7 freigelassen, um Ihren Computer zu steuern! Vom Öffnen eines Terminals bis zum Auflisten von Dateien haben Sie gesehen, wie CUA die Automatisierung wie Magie erscheinen lässt. Probieren Sie als Nächstes Aufgaben wie das Starten von Apps oder das Organisieren von Dateien aus und teilen Sie Ihre Erfolge mit. Was ist Ihr nächster Schritt? Ein CUA-Coding-Assistent? Ein Screenshot-Bot? Und für mehr Informationen, überprüfen Sie die CUA GitHub, und viel Spaß beim Automatisieren!

button