Stellen Sie sich vor, Sie steuern Ihren Mac mit nur wenigen Zeilen natürlicher Sprache. Dieser Traum ist jetzt Realität, dank Claudes neuem Computer Use Tool. Egal, ob Sie mühsame UI-Workflows automatisieren, Benutzereingaben simulieren oder Demos erstellen, die mit macOS-Oberflächen interagieren, Claudes Computer Use Tool bietet eine leistungsstarke und überraschend intuitive Lösung.
In diesem Artikel gehen wir die Funktionen dieses Features durch, wie man es benutzt und analysieren die inneren Abläufe des Kerns des Tools. Egal, ob Sie ein Entwickler sind, der sich wiederholende Aufgaben automatisieren möchte, oder einfach nur jemand, der Apps freihändig steuern möchte, dieser Leitfaden ist eine umfassende Anleitung für den Einstieg.

Was ist Claudes Computer Use?
Computer Use ist ein Claude-spezifisches Beta-Tool, das von Anthropic veröffentlicht wurde und es einem KI-Agenten ermöglicht, direkt mit der Tastatur, der Maus und dem Bildschirm eines Macs zu interagieren. Diese Interaktion wird programmatisch mithilfe von macOS-Befehlszeilen-Dienstprogrammen im Hintergrund erreicht.
Claude kann mit diesem Tool:
- Tippen oder Drücken bestimmter Tasten simulieren
- Den Mauszeiger an eine Position bewegen
- Links-, Rechts- oder Doppelklicks ausführen
- Screenshots des aktuellen Bildschirms erstellen
- Die Position des Cursors abrufen
All diese Aktionen werden über eine API-ähnliche Schnittstelle verfügbar gemacht und in ein Python-basiertes Tool verpackt, das Anthropic-Agenten aufrufen können.
Warum macOS mit Claude automatisieren?
Traditionelle macOS-Automatisierungstools wie AppleScript oder Automator können leistungsstark sein, neigen aber dazu, brüchig, anwendungsspezifisch oder in ihrem Umfang begrenzt zu sein. Mit Claudes Computer Use API sind Sie nicht mehr an diese Regeln gebunden. Sie können mit dem System als Ganzes interagieren – Apps navigieren, klicken, tippen, ziehen und sogar den Bildschirm visuell interpretieren – genau wie ein Mensch.
Claude fungiert wie ein intelligenter Co-Pilot, der interpretiert, was auf Ihrem Bildschirm zu sehen ist, und Aufgaben in Echtzeit ausführt, indem er Anweisungen in natürlicher Sprache und Systembefehle auf niedriger Ebene verwendet.
Was Sie benötigen
Vergewissern Sie sich zu Beginn, dass Sie Folgendes haben:
- Einen Mac mit macOS 12 (Monterey) oder höher
- Python 3.8+ installiert
- Homebrew (der macOS-Paketmanager)
- Eine Terminalanwendung wie Terminal.app oder iTerm2
Zugriff auf die Claude Computer Use API und Ihren API-Schlüssel
Sie verwenden auch ein Befehlszeilen-Dienstprogramm namens cliclick
für Interaktionen auf niedriger Ebene wie das Tippen auf der Tastatur und die Maussteuerung.
Einrichten Ihrer macOS-Umgebung
Bevor Claude Ihren Mac steuern kann, müssen Sie dem Terminal Zugriffsrechte gewähren:
- Öffnen Sie die Systemeinstellungen
- Gehen Sie zu Datenschutz & Sicherheit → Bedienungshilfen
- Aktivieren Sie die Steuerung für die von Ihnen verwendete Terminalanwendung
Ohne diese Berechtigungen funktioniert die Automatisierung nicht.
So funktioniert es: Claude + cliclick + Python
Das System basiert auf drei Schlüsselschichten:
- Claudes Computer Use API – Verarbeitet die Bildschirminterpretation und entscheidet, welche Aktionen ausgeführt werden sollen.
- cliclick – Ein Befehlszeilen-Tool, das Mausbewegungen, Klicks und Tastatureingaben simuliert.
- Python Bridge (
computer.py
) – Verbindet Claudes Befehle mit cliclick und Ihrem macOS-System.
Die Claude-API interpretiert visuelle Informationen (z. B. welche Apps geöffnet sind oder wo sich Schaltflächen befinden) und gibt Befehle auf hoher Ebene aus. Diese Befehle werden dann auf Ihrem Mac über cliclick ausgeführt, orchestriert von der Python-Schicht.
Installieren der Tools
Befolgen Sie diese Schritte, um das Automatisierungs-Setup zu installieren und auszuführen:
1. Installieren Sie cliclick
brew install cliclick
2. Klonen Sie das Quickstart-Repository
git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo
3. Ersetzen Sie das Core-Skript
Ersetzen Sie die vorhandene Datei computer.py
durch die geänderte Version, die im Automating macOS using Claude Computer Use-Leitfaden bereitgestellt wird.
4. Führen Sie das Setup-Skript aus
./setup.sh
Dieses Skript erstellt eine virtuelle Python-Umgebung und installiert Abhängigkeiten.
5. Aktivieren Sie die Umgebung
source .venv/bin/activate
6. Legen Sie Ihre Umgebungsvariablen fest
Ersetzen Sie die Platzhalter durch Ihre tatsächlichen Daten.
export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512 # Ihre Bildschirmbreite
export HEIGHT=982 # Ihre Bildschirmhöhe
Sie finden Ihre Auflösung unter Apple-Menü > Über diesen Mac > Anzeigen.
7. Starten Sie die Streamlit-App
python -m streamlit run computer_use_demo/streamlit.py
Ein lokaler Browser öffnet sich, in dem Sie damit beginnen können, Claude Befehle zu erteilen.
Automatisierung von Aufgaben in der realen Welt unter macOS
Nachdem nun alles eingerichtet und ausgeführt wird, wollen wir uns ansehen, was Sie tun können.
1. Starten von Anwendungen
Bitten Sie Claude, „Safari öffnen“ oder „Spotify starten“. Claude identifiziert visuell die Symbole oder Menüeinträge und simuliert die erforderlichen Klicks und Tastendrücke.

2. Eingabe von Text in Apps
Sie können Claude bitten, Notizen zu öffnen und eine Nachricht einzugeben. Dies ist nützlich für die Erstellung automatisierter Protokolle oder täglicher Journale.
3. Navigieren in Menüs und Fenstern
Claude kann Tastenkombinationen simulieren, durch Menüs klicken oder Fenster an bestimmte Positionen ziehen. Dies eignet sich hervorragend für die Erstellung mehrstufiger Workflows wie das Exportieren von Dateien oder das Einrichten Ihres Arbeitsbereichs.
Faszinierend von Computer Use? Lassen Sie uns tiefer eintauchen:
Das Skript computer.py
fungiert als Middleware, die Folgendes verarbeitet:
- Übersetzen von Bildschirmkoordinaten basierend auf der Auflösung
- Ausführen von Maus- und Tastaturaktionen mit präzisem Timing
- Erfassen und Codieren von Screenshots zur visuellen Bestätigung
- Jeder von Claude ausgegebene Befehl (z. B.
left_click
,mouse_move
,type
) wird validiert, geparst und dann an cliclick übergeben.
Beispiel: Claude auffordern, Safari zu öffnen. Nach der Einrichtung können Sie Claude mit etwas wie Folgendem auffordern:
"Bitte öffnen Sie Safari, gehen Sie zu apple.com und erstellen Sie einen Screenshot."
Im Hintergrund wird Claude Folgendes tun:
- Verwenden Sie
cliclick
, umCmd+Leertaste
zu drücken - Geben Sie "Safari" ein
- Drücken Sie
Eingabe
- Warten Sie, bis der Browser geladen ist
- Geben Sie "apple.com" ein
- Drücken Sie
Eingabe
- Verwenden Sie
screenshot()
, um den Bildschirm zu erfassen
All diese Schritte werden in natürlicher Sprache abstrahiert.
Es unterstützt auch Feedbackschleifen, wie z. B. die Rückgabe der aktuellen Mausposition oder eines Screenshots des Bildschirms, sodass Claude "sehen" kann, was passiert ist, und intelligent reagieren kann. Denken Sie darüber nach, was Claude Computer Use für Sie tun kann:
- Inhaltserstellung: Automatisieren Sie das Öffnen von Photoshop, das Laden einer Vorlage und das Exportieren eines Designs.
- Meetings: Öffnen Sie Zoom, nehmen Sie an Meetings teil und schalten Sie sich mit einfachen Eingabeaufforderungen stumm/unmute.
- Codierung: Öffnen Sie Ihre IDE, laden Sie ein Projekt und kompilieren Sie es – alles ausgelöst durch eine Anweisung in natürlicher Sprache.
- Systembereinigung: Öffnen Sie den Finder, gehen Sie zu Downloads und löschen Sie alte Dateien.
So funktioniert Claudes Computer Use im Hintergrund
Das Herzstück dieser Funktion ist die Datei computer.py
, eine Tool-Implementierung, die einem KI-Agenten eine API-ähnliche Schnittstelle zur Verfügung stellt.
Lassen Sie uns die wichtigsten Komponenten von computer.py
analysieren.
1. Tool-Konfiguration und -Einrichtung
class ComputerTool(BaseAnthropicTool):
name: Literal["computer"] = "computer"
api_type: Literal["computer_20241022"] = "computer_20241022"
Diese Klasse legt den Namen und den API-Typ des Tools fest. Sie erbt von BaseAnthropicTool
, wodurch die Kommunikation von Tools mit Claude standardisiert wird.
Der Konstruktor lädt Bildschirmbreite, -höhe und -nummer aus Umgebungsvariablen. Dadurch wird sichergestellt, dass die Zuordnung der Mauskoordinaten auf hochauflösenden Displays korrekt funktioniert.
self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)
2. Ausführen von Aktionen
Das Tool verarbeitet verschiedene Aktionen wie mouse_move
, type
, key
und screenshot
. Jede Aktion löst einen anderen Shell-Befehl aus:
if action == "mouse_move":
return await self.shell(f"cliclick m:{x},{y}")
Die Eingabe wird verarbeitet, indem der Eingabetext in Teile aufgeteilt und Tastendrücke simuliert werden:
for chunk in chunks(text, TYPING_GROUP_SIZE):
cmd = f"cliclick t:'{chunk}'"
results.append(await self.shell(cmd, take_screenshot=False))
Dies ahmt einen Benutzer nach, der Zeichen für Zeichen tippt, einschließlich eines Screenshots danach.
3. Screenshot-Funktionalität
Die Funktion screenshot()
erstellt einen Screenshot mit screencapture
, ändert die Größe mit ImageMagick’s convert
und gibt ihn base64-codiert zurück:
screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")
Dadurch kann Claude "sehen", was auf dem Bildschirm passiert, bevor oder nachdem Aktionen ausgeführt werden.
4. Koordinatenskalierung
Nicht alle Bildschirme haben die gleiche Auflösung. Die Methode scale_coordinates()
passt Koordinaten an, damit Interaktionen auf allen Displays konsistent bleiben:
x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height
Dies stellt sicher, dass, wenn die KI sagt "Klicken Sie auf (400, 300)", sie unabhängig von der tatsächlichen Bildschirmgröße an der richtigen Stelle landet.
5. Fehlerbehandlung und -validierung
Im gesamten Code werden Fehler wie fehlender Text oder ungültige Koordinaten frühzeitig mit hilfreichen Meldungen abgefangen:
if text is None:
raise ToolError(f"text is required for {action}")
Dies schützt das Tool und gewährleistet ein vorhersehbares Verhalten, wenn Claude mit einem System interagiert.
Abschließende Gedanken
Claudes Computer Use API bietet einen futuristischen Ansatz zur Automatisierung – weniger Skripting, mehr Intelligenz. Durch die Interpretation von Bildschirmanzeigen und die Reaktion wie ein menschlicher Assistent bringt Claude leistungsstarke Automatisierung für jeden macOS-Benutzer, ohne dass fundierte technische Kenntnisse erforderlich sind.
Mit nur Python, ein paar Tools und Ihrem API-Schlüssel können Sie Workflows erstellen, die sich an Ihre Gewohnheiten und Vorlieben anpassen – so haben Sie mehr Zeit, sich auf das zu konzentrieren, was wirklich wichtig ist.