Automatiza tu Mac con el uso de la computadora de Claude, así es como:

Imagina controlar tu Mac con solo unas pocas líneas de lenguaje natural. Ese sueño ahora es una realidad, gracias a la nueva herramienta Computer Use de Claude. Ya sea que estés automatizando flujos de trabajo tediosos de la interfaz de usuario, simulando la entrada del usuario o creando demostraciones que interactúan con las interfaces de macOS, la herramienta Computer Use de Claude ofrece una solución potente y sorprendentemente intuitiva.

En este artículo, analizaremos qué es esta función, cómo usarla y desglosaremos el funcionamiento interno del núcleo de la herramienta. Ya seas un desarrollador que busca automatizar tareas repetitivas o simplemente alguien que quiere controlar aplicaciones con manos libres, esta guía es un recorrido completo para comenzar.

💡

Antes de sumergirte en los detalles de la automatización de tu Mac con Claude, tómate un momento para echar un vistazo a Apidog, una herramienta potente para diseñar, probar y documentar API. Apiog permite una integración perfecta de API, mejorando tu flujo de trabajo con modelos estructurados y una fácil colaboración. Si estás buscando optimizar tu automatización y mejorar tu gestión de API, Apidog es la herramienta que necesitas.

button

¿Qué es Computer Use de Claude?

Computer Use es una herramienta beta específica de Claude lanzada por Anthropic que permite que un agente de IA interactúe directamente con el teclado, el ratón y la pantalla de un Mac. Esta interacción se logra programáticamente utilizando utilidades de línea de comandos de macOS en segundo plano.

Claude, usando esta herramienta, puede:

Simular la escritura o la pulsación de teclas específicas
Mover el cursor del ratón a una ubicación
Realizar clics izquierdo, derecho o doble
Tomar capturas de pantalla de la pantalla actual
Obtener la posición del cursor

Todas estas acciones se exponen a través de una interfaz similar a una API y se envuelven en una herramienta basada en Python que los agentes de Anthropic pueden llamar.

¿Por qué automatizar macOS con Claude?

Las herramientas tradicionales de automatización de macOS como AppleScript o Automator pueden ser potentes, pero tienden a ser frágiles, específicas de la aplicación o limitadas en su alcance. Con la API Computer Use de Claude, ya no estás limitado por esas reglas. Puedes interactuar con el sistema en su conjunto: navegar por las aplicaciones, hacer clic, escribir, arrastrar e incluso interpretar la pantalla visualmente, tal como lo haría un humano.

Claude actúa como un copiloto inteligente, interpretando lo que hay en tu pantalla y ejecutando tareas en tiempo real utilizando instrucciones en lenguaje natural y comandos de sistema de bajo nivel.

Qué necesitarás

Para comenzar, asegúrate de tener lo siguiente:

Un Mac con macOS 12 (Monterey) o posterior
Python 3.8+ instalado
Homebrew (el administrador de paquetes de macOS)
Una aplicación de terminal como Terminal.app o iTerm2

Acceso a la API Computer Use de Claude y tu clave de API

También utilizarás una utilidad de línea de comandos llamada cliclick para la interacción de bajo nivel, como la escritura con el teclado y el control del ratón.

Configuración de tu entorno macOS

Antes de que Claude pueda controlar tu Mac, debes otorgar permisos de accesibilidad al terminal:

Abre Ajustes del Sistema
Ve a Privacidad y seguridad → Accesibilidad
Habilita el control para la aplicación de terminal que estés utilizando

Sin estos permisos, la automatización no funcionará.

Cómo funciona: Claude + cliclick + Python

El sistema está construido sobre tres capas clave:

API Computer Use de Claude: gestiona la interpretación de la pantalla, decide qué acciones tomar.
cliclick: una herramienta de línea de comandos que simula el movimiento del ratón, los clics y la entrada del teclado.
Puente de Python (computer.py): conecta los comandos de Claude con cliclick y tu sistema macOS.

La API de Claude interpreta la información visual (como qué aplicaciones están abiertas o dónde se encuentran los botones) y emite comandos de alto nivel. Estos comandos se ejecutan en tu Mac a través de cliclick, orquestados por la capa de Python.

Instalación de las herramientas

Sigue estos pasos para instalar y ejecutar la configuración de automatización:

1. Instala `cliclick`

brew install cliclick

2. Clona el repositorio de inicio rápido

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

3. Reemplaza el script principal

Reemplaza el archivo computer.py existente con la versión modificada proporcionada en la guía Automatización de macOS usando Computer Use de Claude.

4. Ejecuta el script de configuración

./setup.sh

Este script crea un entorno virtual de Python e instala las dependencias.

5. Activa el entorno

source .venv/bin/activate

6. Establece tus variables de entorno

Reemplaza los marcadores de posición con tus datos reales.

export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512  # El ancho de tu pantalla
export HEIGHT=982  # La altura de tu pantalla

Puedes encontrar tu resolución en el menú Apple > Acerca de este Mac > Pantallas.

7. Inicia la aplicación Streamlit

python -m streamlit run computer_use_demo/streamlit.py

Se abrirá un navegador local donde puedes comenzar a emitir comandos a Claude.

Automatización de tareas del mundo real en macOS

Ahora que todo está en funcionamiento, veamos qué puedes hacer.

1. Lanzamiento de aplicaciones

Pídele a Claude que "Abra Safari" o "Lance Spotify". Claude identificará visualmente los iconos o las entradas del menú y simulará los clics y las pulsaciones de teclas necesarios.

2. Escritura de texto en aplicaciones

Puedes pedirle a Claude que abra Notas y escriba un mensaje. Esto es útil para crear registros automatizados o diarios.

3. Navegación por menús y ventanas

Claude puede simular atajos de teclado, hacer clic en los menús o arrastrar ventanas a posiciones específicas. Esto es ideal para crear flujos de trabajo de varios pasos, como exportar archivos o configurar tu espacio de trabajo.

¿Fascinado por Computer Use? Profundicemos:

El script computer.py actúa como un middleware que gestiona:

Traducción de coordenadas de pantalla basadas en la resolución
Ejecución de acciones del ratón y del teclado con una sincronización precisa
Captura y codificación de capturas de pantalla para la confirmación visual
Cada comando emitido por Claude (por ejemplo, left_click, mouse_move, type) se valida, se analiza y luego se entrega a cliclick.

Ejemplo: Decirle a Claude que abra Safari. Una vez configurado, puedes indicarle a Claude algo como:

"Por favor, abre Safari, ve a apple.com y haz una captura de pantalla".

En segundo plano, Claude hará lo siguiente:

Usar cliclick para pulsar Cmd+Espacio
Escribir "Safari"
Pulsar Enter
Esperar a que se cargue el navegador
Escribir "apple.com"
Pulsar Enter
Usar screenshot() para capturar la pantalla

Todos estos pasos se abstraen en lenguaje natural.

También admite bucles de retroalimentación, como devolver la posición actual del ratón o una captura de pantalla, para que Claude pueda "ver" lo que ha sucedido y responder de forma inteligente. Piensa en lo que Computer Use de Claude puede hacer por ti:

Creación de contenido: automatiza la apertura de Photoshop, la carga de una plantilla y la exportación de un diseño.
Reuniones: abre Zoom, únete a reuniones y silencia/activa el sonido con simples indicaciones.
Codificación: abre tu IDE, carga un proyecto y compila, todo ello activado por una instrucción en lenguaje natural.
Limpieza del sistema: abre Finder, ve a Descargas y elimina archivos antiguos.

Cómo funciona Computer Use de Claude en segundo plano

En el núcleo de esta función se encuentra el archivo computer.py, una implementación de herramienta que expone una interfaz similar a una API a un agente de IA.

Analicemos los principales componentes de computer.py.

1. Configuración y ajuste de la herramienta

class ComputerTool(BaseAnthropicTool):
    name: Literal["computer"] = "computer"
    api_type: Literal["computer_20241022"] = "computer_20241022"

Esta clase establece el nombre y el tipo de API de la herramienta. Hereda de BaseAnthropicTool, que estandariza la forma en que las herramientas se comunican con Claude.

El constructor carga el ancho, la altura y el número de pantalla de las variables de entorno. Esto garantiza que la asignación de coordenadas del ratón funcione correctamente en pantallas de alta resolución.

self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)

2. Ejecución de acciones

La herramienta gestiona varias acciones como mouse_move, type, key y screenshot. Cada acción desencadena un comando de shell diferente:

if action == "mouse_move":
    return await self.shell(f"cliclick m:{x},{y}")

La escritura se gestiona dividiendo el texto de entrada en fragmentos y simulando pulsaciones de teclas:

for chunk in chunks(text, TYPING_GROUP_SIZE):
    cmd = f"cliclick t:'{chunk}'"
    results.append(await self.shell(cmd, take_screenshot=False))

Esto imita a un usuario que escribe carácter por carácter, incluyendo una captura de pantalla posterior.

3. Funcionalidad de captura de pantalla

La función screenshot() toma una captura de pantalla usando screencapture, la redimensiona usando convert de ImageMagick y la devuelve codificada en base64:

screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")

Esto permite a Claude "ver" lo que está sucediendo en la pantalla antes o después de realizar acciones.

4. Escalado de coordenadas

No todas las pantallas tienen la misma resolución. El método scale_coordinates() ajusta las coordenadas para que las interacciones sigan siendo coherentes en todas las pantallas:

x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height

Esto garantiza que cuando la IA dice "haz clic en (400, 300)", aterrice en el lugar correcto, independientemente del tamaño real de la pantalla.

5. Gestión de errores y validación

A lo largo del código, los errores como la falta de texto o las coordenadas no válidas se detectan de forma temprana con mensajes útiles:

if text is None:
    raise ToolError(f"text is required for {action}")

Esto protege la herramienta y garantiza un comportamiento predecible cuando Claude interactúa con un sistema.

Reflexiones finales

La API Computer Use de Claude ofrece un enfoque futurista de la automatización: menos scripts, más inteligencia. Al interpretar las imágenes de la pantalla y responder como un asistente humano, Claude ofrece una potente automatización a cualquier usuario de macOS sin necesidad de profundos conocimientos técnicos.

Con solo Python, algunas herramientas y tu clave de API, puedes crear flujos de trabajo que se adapten a tus hábitos y preferencias, lo que te dará más tiempo para concentrarte en lo que realmente importa.