Mac mit Claudes Computernutzung automatisieren, so geht's:

Stellen Sie sich vor, Sie steuern Ihren Mac mit nur wenigen Zeilen natürlicher Sprache. Dieser Traum ist jetzt Realität, dank Claudes neuem Computer Use Tool. Egal, ob Sie mühsame UI-Workflows automatisieren, Benutzereingaben simulieren oder Demos erstellen, die mit macOS-Oberflächen interagieren, Claudes Computer Use Tool bietet eine leistungsstarke und überraschend intuitive Lösung.

In diesem Artikel gehen wir die Funktionen dieses Features durch, wie man es benutzt und analysieren die inneren Abläufe des Kerns des Tools. Egal, ob Sie ein Entwickler sind, der sich wiederholende Aufgaben automatisieren möchte, oder einfach nur jemand, der Apps freihändig steuern möchte, dieser Leitfaden ist eine umfassende Anleitung für den Einstieg.

💡

Bevor Sie sich mit den Details der Automatisierung Ihres Macs mit Claude befassen, nehmen Sie sich einen Moment Zeit, um Apidog auszuprobieren – ein leistungsstarkes Tool zum Entwerfen, Testen und Dokumentieren von APIs. Apidog ermöglicht eine nahtlose API-Integration und verbessert Ihren Workflow mit strukturierten Modellen und einfacher Zusammenarbeit. Wenn Sie Ihre Automatisierung optimieren und Ihr API-Management verbessern möchten, ist Apidog das Tool, das Sie benötigen.

button

Was ist Claudes Computer Use?

Computer Use ist ein Claude-spezifisches Beta-Tool, das von Anthropic veröffentlicht wurde und es einem KI-Agenten ermöglicht, direkt mit der Tastatur, der Maus und dem Bildschirm eines Macs zu interagieren. Diese Interaktion wird programmatisch mithilfe von macOS-Befehlszeilen-Dienstprogrammen im Hintergrund erreicht.

Claude kann mit diesem Tool:

Tippen oder Drücken bestimmter Tasten simulieren
Den Mauszeiger an eine Position bewegen
Links-, Rechts- oder Doppelklicks ausführen
Screenshots des aktuellen Bildschirms erstellen
Die Position des Cursors abrufen

All diese Aktionen werden über eine API-ähnliche Schnittstelle verfügbar gemacht und in ein Python-basiertes Tool verpackt, das Anthropic-Agenten aufrufen können.

Warum macOS mit Claude automatisieren?

Traditionelle macOS-Automatisierungstools wie AppleScript oder Automator können leistungsstark sein, neigen aber dazu, brüchig, anwendungsspezifisch oder in ihrem Umfang begrenzt zu sein. Mit Claudes Computer Use API sind Sie nicht mehr an diese Regeln gebunden. Sie können mit dem System als Ganzes interagieren – Apps navigieren, klicken, tippen, ziehen und sogar den Bildschirm visuell interpretieren – genau wie ein Mensch.

Claude fungiert wie ein intelligenter Co-Pilot, der interpretiert, was auf Ihrem Bildschirm zu sehen ist, und Aufgaben in Echtzeit ausführt, indem er Anweisungen in natürlicher Sprache und Systembefehle auf niedriger Ebene verwendet.

Was Sie benötigen

Vergewissern Sie sich zu Beginn, dass Sie Folgendes haben:

Einen Mac mit macOS 12 (Monterey) oder höher
Python 3.8+ installiert
Homebrew (der macOS-Paketmanager)
Eine Terminalanwendung wie Terminal.app oder iTerm2

Zugriff auf die Claude Computer Use API und Ihren API-Schlüssel

Sie verwenden auch ein Befehlszeilen-Dienstprogramm namens cliclick für Interaktionen auf niedriger Ebene wie das Tippen auf der Tastatur und die Maussteuerung.

Einrichten Ihrer macOS-Umgebung

Bevor Claude Ihren Mac steuern kann, müssen Sie dem Terminal Zugriffsrechte gewähren:

Öffnen Sie die Systemeinstellungen
Gehen Sie zu Datenschutz & Sicherheit → Bedienungshilfen
Aktivieren Sie die Steuerung für die von Ihnen verwendete Terminalanwendung

Ohne diese Berechtigungen funktioniert die Automatisierung nicht.

So funktioniert es: Claude + cliclick + Python

Das System basiert auf drei Schlüsselschichten:

Claudes Computer Use API – Verarbeitet die Bildschirminterpretation und entscheidet, welche Aktionen ausgeführt werden sollen.
cliclick – Ein Befehlszeilen-Tool, das Mausbewegungen, Klicks und Tastatureingaben simuliert.
Python Bridge (computer.py) – Verbindet Claudes Befehle mit cliclick und Ihrem macOS-System.

Die Claude-API interpretiert visuelle Informationen (z. B. welche Apps geöffnet sind oder wo sich Schaltflächen befinden) und gibt Befehle auf hoher Ebene aus. Diese Befehle werden dann auf Ihrem Mac über cliclick ausgeführt, orchestriert von der Python-Schicht.

Installieren der Tools

Befolgen Sie diese Schritte, um das Automatisierungs-Setup zu installieren und auszuführen:

1. Installieren Sie `cliclick`

brew install cliclick

2. Klonen Sie das Quickstart-Repository

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

3. Ersetzen Sie das Core-Skript

Ersetzen Sie die vorhandene Datei computer.py durch die geänderte Version, die im Automating macOS using Claude Computer Use-Leitfaden bereitgestellt wird.

4. Führen Sie das Setup-Skript aus

./setup.sh

Dieses Skript erstellt eine virtuelle Python-Umgebung und installiert Abhängigkeiten.

5. Aktivieren Sie die Umgebung

source .venv/bin/activate

6. Legen Sie Ihre Umgebungsvariablen fest

Ersetzen Sie die Platzhalter durch Ihre tatsächlichen Daten.

export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512  # Ihre Bildschirmbreite
export HEIGHT=982  # Ihre Bildschirmhöhe

Sie finden Ihre Auflösung unter Apple-Menü > Über diesen Mac > Anzeigen.

7. Starten Sie die Streamlit-App

python -m streamlit run computer_use_demo/streamlit.py

Ein lokaler Browser öffnet sich, in dem Sie damit beginnen können, Claude Befehle zu erteilen.

Automatisierung von Aufgaben in der realen Welt unter macOS

Nachdem nun alles eingerichtet und ausgeführt wird, wollen wir uns ansehen, was Sie tun können.

1. Starten von Anwendungen

Bitten Sie Claude, „Safari öffnen“ oder „Spotify starten“. Claude identifiziert visuell die Symbole oder Menüeinträge und simuliert die erforderlichen Klicks und Tastendrücke.

2. Eingabe von Text in Apps

Sie können Claude bitten, Notizen zu öffnen und eine Nachricht einzugeben. Dies ist nützlich für die Erstellung automatisierter Protokolle oder täglicher Journale.

3. Navigieren in Menüs und Fenstern

Claude kann Tastenkombinationen simulieren, durch Menüs klicken oder Fenster an bestimmte Positionen ziehen. Dies eignet sich hervorragend für die Erstellung mehrstufiger Workflows wie das Exportieren von Dateien oder das Einrichten Ihres Arbeitsbereichs.

Faszinierend von Computer Use? Lassen Sie uns tiefer eintauchen:

Das Skript computer.py fungiert als Middleware, die Folgendes verarbeitet:

Übersetzen von Bildschirmkoordinaten basierend auf der Auflösung
Ausführen von Maus- und Tastaturaktionen mit präzisem Timing
Erfassen und Codieren von Screenshots zur visuellen Bestätigung
Jeder von Claude ausgegebene Befehl (z. B. left_click, mouse_move, type) wird validiert, geparst und dann an cliclick übergeben.

Beispiel: Claude auffordern, Safari zu öffnen. Nach der Einrichtung können Sie Claude mit etwas wie Folgendem auffordern:

"Bitte öffnen Sie Safari, gehen Sie zu apple.com und erstellen Sie einen Screenshot."

Im Hintergrund wird Claude Folgendes tun:

Verwenden Sie cliclick, um Cmd+Leertaste zu drücken
Geben Sie "Safari" ein
Drücken Sie Eingabe
Warten Sie, bis der Browser geladen ist
Geben Sie "apple.com" ein
Drücken Sie Eingabe
Verwenden Sie screenshot(), um den Bildschirm zu erfassen

All diese Schritte werden in natürlicher Sprache abstrahiert.

Es unterstützt auch Feedbackschleifen, wie z. B. die Rückgabe der aktuellen Mausposition oder eines Screenshots des Bildschirms, sodass Claude "sehen" kann, was passiert ist, und intelligent reagieren kann. Denken Sie darüber nach, was Claude Computer Use für Sie tun kann:

Inhaltserstellung: Automatisieren Sie das Öffnen von Photoshop, das Laden einer Vorlage und das Exportieren eines Designs.
Meetings: Öffnen Sie Zoom, nehmen Sie an Meetings teil und schalten Sie sich mit einfachen Eingabeaufforderungen stumm/unmute.
Codierung: Öffnen Sie Ihre IDE, laden Sie ein Projekt und kompilieren Sie es – alles ausgelöst durch eine Anweisung in natürlicher Sprache.
Systembereinigung: Öffnen Sie den Finder, gehen Sie zu Downloads und löschen Sie alte Dateien.

So funktioniert Claudes Computer Use im Hintergrund

Das Herzstück dieser Funktion ist die Datei computer.py, eine Tool-Implementierung, die einem KI-Agenten eine API-ähnliche Schnittstelle zur Verfügung stellt.

Lassen Sie uns die wichtigsten Komponenten von computer.py analysieren.

1. Tool-Konfiguration und -Einrichtung

class ComputerTool(BaseAnthropicTool):
    name: Literal["computer"] = "computer"
    api_type: Literal["computer_20241022"] = "computer_20241022"

Diese Klasse legt den Namen und den API-Typ des Tools fest. Sie erbt von BaseAnthropicTool, wodurch die Kommunikation von Tools mit Claude standardisiert wird.

Der Konstruktor lädt Bildschirmbreite, -höhe und -nummer aus Umgebungsvariablen. Dadurch wird sichergestellt, dass die Zuordnung der Mauskoordinaten auf hochauflösenden Displays korrekt funktioniert.

self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)

2. Ausführen von Aktionen

Das Tool verarbeitet verschiedene Aktionen wie mouse_move, type, key und screenshot. Jede Aktion löst einen anderen Shell-Befehl aus:

if action == "mouse_move":
    return await self.shell(f"cliclick m:{x},{y}")

Die Eingabe wird verarbeitet, indem der Eingabetext in Teile aufgeteilt und Tastendrücke simuliert werden:

for chunk in chunks(text, TYPING_GROUP_SIZE):
    cmd = f"cliclick t:'{chunk}'"
    results.append(await self.shell(cmd, take_screenshot=False))

Dies ahmt einen Benutzer nach, der Zeichen für Zeichen tippt, einschließlich eines Screenshots danach.

3. Screenshot-Funktionalität

Die Funktion screenshot() erstellt einen Screenshot mit screencapture, ändert die Größe mit ImageMagick’s convert und gibt ihn base64-codiert zurück:

screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")

Dadurch kann Claude "sehen", was auf dem Bildschirm passiert, bevor oder nachdem Aktionen ausgeführt werden.

4. Koordinatenskalierung

Nicht alle Bildschirme haben die gleiche Auflösung. Die Methode scale_coordinates() passt Koordinaten an, damit Interaktionen auf allen Displays konsistent bleiben:

x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height

Dies stellt sicher, dass, wenn die KI sagt "Klicken Sie auf (400, 300)", sie unabhängig von der tatsächlichen Bildschirmgröße an der richtigen Stelle landet.

5. Fehlerbehandlung und -validierung

Im gesamten Code werden Fehler wie fehlender Text oder ungültige Koordinaten frühzeitig mit hilfreichen Meldungen abgefangen:

if text is None:
    raise ToolError(f"text is required for {action}")

Dies schützt das Tool und gewährleistet ein vorhersehbares Verhalten, wenn Claude mit einem System interagiert.

Abschließende Gedanken

Claudes Computer Use API bietet einen futuristischen Ansatz zur Automatisierung – weniger Skripting, mehr Intelligenz. Durch die Interpretation von Bildschirmanzeigen und die Reaktion wie ein menschlicher Assistent bringt Claude leistungsstarke Automatisierung für jeden macOS-Benutzer, ohne dass fundierte technische Kenntnisse erforderlich sind.

Mit nur Python, ein paar Tools und Ihrem API-Schlüssel können Sie Workflows erstellen, die sich an Ihre Gewohnheiten und Vorlieben anpassen – so haben Sie mehr Zeit, sich auf das zu konzentrieren, was wirklich wichtig ist.