Imagina controlar tu Mac con solo unas pocas líneas de lenguaje natural. Ese sueño ahora es una realidad, gracias a la nueva herramienta Computer Use de Claude. Ya sea que estés automatizando flujos de trabajo tediosos de la interfaz de usuario, simulando la entrada del usuario o creando demostraciones que interactúan con las interfaces de macOS, la herramienta Computer Use de Claude ofrece una solución potente y sorprendentemente intuitiva.
En este artículo, analizaremos qué es esta función, cómo usarla y desglosaremos el funcionamiento interno del núcleo de la herramienta. Ya seas un desarrollador que busca automatizar tareas repetitivas o simplemente alguien que quiere controlar aplicaciones con manos libres, esta guía es un recorrido completo para comenzar.

¿Qué es Computer Use de Claude?
Computer Use es una herramienta beta específica de Claude lanzada por Anthropic que permite que un agente de IA interactúe directamente con el teclado, el ratón y la pantalla de un Mac. Esta interacción se logra programáticamente utilizando utilidades de línea de comandos de macOS en segundo plano.
Claude, usando esta herramienta, puede:
- Simular la escritura o la pulsación de teclas específicas
- Mover el cursor del ratón a una ubicación
- Realizar clics izquierdo, derecho o doble
- Tomar capturas de pantalla de la pantalla actual
- Obtener la posición del cursor
Todas estas acciones se exponen a través de una interfaz similar a una API y se envuelven en una herramienta basada en Python que los agentes de Anthropic pueden llamar.
¿Por qué automatizar macOS con Claude?
Las herramientas tradicionales de automatización de macOS como AppleScript o Automator pueden ser potentes, pero tienden a ser frágiles, específicas de la aplicación o limitadas en su alcance. Con la API Computer Use de Claude, ya no estás limitado por esas reglas. Puedes interactuar con el sistema en su conjunto: navegar por las aplicaciones, hacer clic, escribir, arrastrar e incluso interpretar la pantalla visualmente, tal como lo haría un humano.
Claude actúa como un copiloto inteligente, interpretando lo que hay en tu pantalla y ejecutando tareas en tiempo real utilizando instrucciones en lenguaje natural y comandos de sistema de bajo nivel.
Qué necesitarás
Para comenzar, asegúrate de tener lo siguiente:
- Un Mac con macOS 12 (Monterey) o posterior
- Python 3.8+ instalado
- Homebrew (el administrador de paquetes de macOS)
- Una aplicación de terminal como Terminal.app o iTerm2
Acceso a la API Computer Use de Claude y tu clave de API
También utilizarás una utilidad de línea de comandos llamada cliclick
para la interacción de bajo nivel, como la escritura con el teclado y el control del ratón.
Configuración de tu entorno macOS
Antes de que Claude pueda controlar tu Mac, debes otorgar permisos de accesibilidad al terminal:
- Abre Ajustes del Sistema
- Ve a Privacidad y seguridad → Accesibilidad
- Habilita el control para la aplicación de terminal que estés utilizando
Sin estos permisos, la automatización no funcionará.
Cómo funciona: Claude + cliclick + Python
El sistema está construido sobre tres capas clave:
- API Computer Use de Claude: gestiona la interpretación de la pantalla, decide qué acciones tomar.
- cliclick: una herramienta de línea de comandos que simula el movimiento del ratón, los clics y la entrada del teclado.
- Puente de Python (
computer.py
): conecta los comandos de Claude con cliclick y tu sistema macOS.
La API de Claude interpreta la información visual (como qué aplicaciones están abiertas o dónde se encuentran los botones) y emite comandos de alto nivel. Estos comandos se ejecutan en tu Mac a través de cliclick, orquestados por la capa de Python.
Instalación de las herramientas
Sigue estos pasos para instalar y ejecutar la configuración de automatización:
1. Instala cliclick
brew install cliclick
2. Clona el repositorio de inicio rápido
git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo
3. Reemplaza el script principal
Reemplaza el archivo computer.py
existente con la versión modificada proporcionada en la guía Automatización de macOS usando Computer Use de Claude.
4. Ejecuta el script de configuración
./setup.sh
Este script crea un entorno virtual de Python e instala las dependencias.
5. Activa el entorno
source .venv/bin/activate
6. Establece tus variables de entorno
Reemplaza los marcadores de posición con tus datos reales.
export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512 # El ancho de tu pantalla
export HEIGHT=982 # La altura de tu pantalla
Puedes encontrar tu resolución en el menú Apple > Acerca de este Mac > Pantallas.
7. Inicia la aplicación Streamlit
python -m streamlit run computer_use_demo/streamlit.py
Se abrirá un navegador local donde puedes comenzar a emitir comandos a Claude.
Automatización de tareas del mundo real en macOS
Ahora que todo está en funcionamiento, veamos qué puedes hacer.
1. Lanzamiento de aplicaciones
Pídele a Claude que "Abra Safari" o "Lance Spotify". Claude identificará visualmente los iconos o las entradas del menú y simulará los clics y las pulsaciones de teclas necesarios.

2. Escritura de texto en aplicaciones
Puedes pedirle a Claude que abra Notas y escriba un mensaje. Esto es útil para crear registros automatizados o diarios.
3. Navegación por menús y ventanas
Claude puede simular atajos de teclado, hacer clic en los menús o arrastrar ventanas a posiciones específicas. Esto es ideal para crear flujos de trabajo de varios pasos, como exportar archivos o configurar tu espacio de trabajo.
¿Fascinado por Computer Use? Profundicemos:
El script computer.py
actúa como un middleware que gestiona:
- Traducción de coordenadas de pantalla basadas en la resolución
- Ejecución de acciones del ratón y del teclado con una sincronización precisa
- Captura y codificación de capturas de pantalla para la confirmación visual
- Cada comando emitido por Claude (por ejemplo,
left_click
,mouse_move
,type
) se valida, se analiza y luego se entrega a cliclick.
Ejemplo: Decirle a Claude que abra Safari. Una vez configurado, puedes indicarle a Claude algo como:
"Por favor, abre Safari, ve a apple.com y haz una captura de pantalla".
En segundo plano, Claude hará lo siguiente:
- Usar
cliclick
para pulsarCmd+Espacio
- Escribir "Safari"
- Pulsar
Enter
- Esperar a que se cargue el navegador
- Escribir "apple.com"
- Pulsar
Enter
- Usar
screenshot()
para capturar la pantalla
Todos estos pasos se abstraen en lenguaje natural.
También admite bucles de retroalimentación, como devolver la posición actual del ratón o una captura de pantalla, para que Claude pueda "ver" lo que ha sucedido y responder de forma inteligente. Piensa en lo que Computer Use de Claude puede hacer por ti:
- Creación de contenido: automatiza la apertura de Photoshop, la carga de una plantilla y la exportación de un diseño.
- Reuniones: abre Zoom, únete a reuniones y silencia/activa el sonido con simples indicaciones.
- Codificación: abre tu IDE, carga un proyecto y compila, todo ello activado por una instrucción en lenguaje natural.
- Limpieza del sistema: abre Finder, ve a Descargas y elimina archivos antiguos.
Cómo funciona Computer Use de Claude en segundo plano
En el núcleo de esta función se encuentra el archivo computer.py
, una implementación de herramienta que expone una interfaz similar a una API a un agente de IA.
Analicemos los principales componentes de computer.py
.
1. Configuración y ajuste de la herramienta
class ComputerTool(BaseAnthropicTool):
name: Literal["computer"] = "computer"
api_type: Literal["computer_20241022"] = "computer_20241022"
Esta clase establece el nombre y el tipo de API de la herramienta. Hereda de BaseAnthropicTool
, que estandariza la forma en que las herramientas se comunican con Claude.
El constructor carga el ancho, la altura y el número de pantalla de las variables de entorno. Esto garantiza que la asignación de coordenadas del ratón funcione correctamente en pantallas de alta resolución.
self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)
2. Ejecución de acciones
La herramienta gestiona varias acciones como mouse_move
, type
, key
y screenshot
. Cada acción desencadena un comando de shell diferente:
if action == "mouse_move":
return await self.shell(f"cliclick m:{x},{y}")
La escritura se gestiona dividiendo el texto de entrada en fragmentos y simulando pulsaciones de teclas:
for chunk in chunks(text, TYPING_GROUP_SIZE):
cmd = f"cliclick t:'{chunk}'"
results.append(await self.shell(cmd, take_screenshot=False))
Esto imita a un usuario que escribe carácter por carácter, incluyendo una captura de pantalla posterior.
3. Funcionalidad de captura de pantalla
La función screenshot()
toma una captura de pantalla usando screencapture
, la redimensiona usando convert
de ImageMagick y la devuelve codificada en base64:
screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")
Esto permite a Claude "ver" lo que está sucediendo en la pantalla antes o después de realizar acciones.
4. Escalado de coordenadas
No todas las pantallas tienen la misma resolución. El método scale_coordinates()
ajusta las coordenadas para que las interacciones sigan siendo coherentes en todas las pantallas:
x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height
Esto garantiza que cuando la IA dice "haz clic en (400, 300)", aterrice en el lugar correcto, independientemente del tamaño real de la pantalla.
5. Gestión de errores y validación
A lo largo del código, los errores como la falta de texto o las coordenadas no válidas se detectan de forma temprana con mensajes útiles:
if text is None:
raise ToolError(f"text is required for {action}")
Esto protege la herramienta y garantiza un comportamiento predecible cuando Claude interactúa con un sistema.
Reflexiones finales
La API Computer Use de Claude ofrece un enfoque futurista de la automatización: menos scripts, más inteligencia. Al interpretar las imágenes de la pantalla y responder como un asistente humano, Claude ofrece una potente automatización a cualquier usuario de macOS sin necesidad de profundos conocimientos técnicos.
Con solo Python, algunas herramientas y tu clave de API, puedes crear flujos de trabajo que se adapten a tus hábitos y preferencias, lo que te dará más tiempo para concentrarte en lo que realmente importa.