Automatize o Mac com o Uso do Computador do Claude, Veja Como:

Imagine controlar seu Mac com apenas algumas linhas de linguagem natural. Esse sonho agora é uma realidade, graças à nova ferramenta de Uso de Computador do Claude. Se você está automatizando fluxos de trabalho tediosos da interface do usuário, simulando entrada de usuário ou criando demonstrações que interagem com interfaces do macOS, a ferramenta de Uso de Computador do Claude oferece uma solução poderosa e surpreendentemente intuitiva.

Neste artigo, vamos explicar o que é esse recurso, como usá-lo e descrever o funcionamento interno do núcleo da ferramenta. Seja você um desenvolvedor buscando automatizar tarefas repetitivas ou apenas alguém que deseja controlar aplicativos sem as mãos, este guia é um passo a passo completo para começar.

💡

Antes de mergulhar nos detalhes de automatizar seu Mac com o Claude, reserve um momento para conferir o Apidog—uma ferramenta poderosa para projetar, testar e documentar APIs. Apiog permite uma integração de API sem costura, melhorando seu fluxo de trabalho com modelos estruturados e fácil colaboração. Se você deseja simplificar sua automação e elevar sua gestão de APIs, o Apidog é a ferramenta que você precisa.

botão

O que é o Uso de Computador do Claude?

O Uso de Computador é uma ferramenta beta específica do Claude lançada pela Anthropic que permite que um agente de IA interaja diretamente com o teclado, mouse e tela de um Mac. Essa interação é realizada programaticamente usando utilitários de linha de comando do macOS.

O Claude, usando esta ferramenta, pode:

Simular digitação ou pressionamento de teclas específicas
Movimentar o cursor do mouse para um local
Realizar cliques esquerdo, direito ou duplos
Fazer capturas de tela da tela atual
Obter a posição do cursor

Todas essas ações são expostas através de uma interface semelhante a uma API e envoltas em uma ferramenta baseada em Python que os agentes da Anthropic podem chamar.

Por que automatizar o macOS com Claude?

Ferramentas tradicionais de automação do macOS, como AppleScript ou Automator, podem ser poderosas, mas tendem a ser frágeis, específicas para aplicações ou limitadas em escopo. Com a API de Uso de Computador do Claude, você não está mais restrito por essas regras. Você pode interagir com o sistema como um todo — navegando em aplicativos, clicando, digitando, arrastando e até interpretando a tela visualmente — assim como um humano faria.

Claude age como um copiloto inteligente, interpretando o que está na sua tela e executando tarefas em tempo real usando instruções em linguagem natural e comandos de sistema de baixo nível.

O que você vai precisar

Para começar, certifique-se de ter o seguinte:

Um Mac rodando macOS 12 (Monterey) ou posterior
Python 3.8+ instalado
Homebrew (o gerenciador de pacotes do macOS)
Um aplicativo de terminal como Terminal.app ou iTerm2

Acesso à API de Uso de Computador do Claude e sua chave de API

Você também usará um utilitário de linha de comando chamado cliclick para interação de baixo nível, como digitação de teclado e controle do mouse.

Configurando o seu Ambiente no macOS

Antes que Claude possa controlar seu Mac, você precisa conceder permissões de acessibilidade ao terminal:

Abra Configurações do Sistema
Vá para Privacidade & Segurança → Acessibilidade
Ative o controle para o aplicativo de terminal que você está usando

Sem essas permissões, a automação não funcionará.

Como Funciona: Claude + cliclick + Python

O sistema é construído em três camadas principais:

API de Uso de Computador do Claude – Lida com a interpretação da tela, decide quais ações tomar.
cliclick – Um utilitário de linha de comando que simula movimento do mouse, cliques e entrada de teclado.
Ponte Python (computer.py) – Conecta os comandos do Claude ao cliclick e ao seu sistema macOS.

A API do Claude interpreta informações visuais (como quais aplicativos estão abertos ou onde os botões estão localizados) e emite comandos de alto nível. Esses comandos são então executados no seu Mac através do cliclick, orquestrados pela camada Python.

Instalando as Ferramentas

Siga estas etapas para instalar e executar a configuração de automação:

1. Instale `cliclick`

brew install cliclick

2. Clone o Repositório Quickstart

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

3. Substitua o Script Principal

Substitua o arquivo computer.py existente pela versão modificada fornecida no guia Automatizando macOS usando o Uso de Computador do Claude.

4. Execute o Script de Configuração

./setup.sh

Este script cria um ambiente virtual Python e instala as dependências.

5. Ative o Ambiente

source .venv/bin/activate

6. Defina suas Variáveis de Ambiente

Substitua os espaços reservados pelos seus dados reais.

export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512  # A largura da sua tela
export HEIGHT=982  # A altura da sua tela

Você pode encontrar sua resolução em Menu Apple > Sobre Este Mac > Monitores.

7. Inicie o App Streamlit

python -m streamlit run computer_use_demo/streamlit.py

Um navegador local será aberto onde você pode começar a emitir comandos para o Claude.

Automatizando Tarefas do Mundo Real no macOS

Agora que tudo está funcionando, vamos ver o que você pode fazer.

1. Abrindo Aplicativos

Peça ao Claude para “Abrir o Safari” ou “Iniciar o Spotify.” Claude identificará visualmente os ícones ou entradas de menu e simulará os cliques e teclas necessários.

2. Digitação de Texto em Aplicativos

Você pode pedir ao Claude para abrir o Notas e digitar uma mensagem. Isso é útil para criar registros automatizados ou diários.

3. Navegando Menus e Janelas

Claude pode simular atalhos de teclado, clicar em menus ou arrastar janelas para posições específicas. Isso é ótimo para criar fluxos de trabalho em várias etapas, como exportar arquivos ou configurar seu ambiente de trabalho.

Fascinado pelo Uso de Computador? Vamos nos aprofundar:

O script computer.py atua como um middleware que lida com:

Traduzindo coordenadas de tela com base na resolução
Executando ações de mouse e teclado com tempo preciso
Capturando e codificando capturas de tela para confirmação visual
Cada comando emitido pelo Claude (por exemplo, left_click, mouse_move, type) é validado, analisado e depois repassado para o cliclick.

Exemplo: Dizendo ao Claude para Abrir o Safari. Uma vez configurado, você pode instigar o Claude com algo como:

"Por favor, abra o Safari, vá para apple.com e tire uma captura de tela."

Nos bastidores, o Claude irá:

Usar cliclick para pressionar Cmd+Space
Digitar "Safari"
Pressionar Enter
Aguardar o navegador carregar
Digitar "apple.com"
Pressionar Enter
Usar screenshot() para capturar a tela

Todas essas etapas são abstraídas na linguagem natural.

Ele também suporta ciclos de feedback, como retornar a posição atual do mouse ou uma captura de tela da tela, para que Claude possa "ver" o que aconteceu e responder de forma inteligente. Pense sobre o que o Uso de Computador do Claude pode fazer por você:

Criação de Conteúdo: Automatizar a abertura do Photoshop, carregar um template e exportar um design.
Reuniões: Abrir o Zoom, participar de reuniões e silenciar/desvincular usando comandos simples.
Codificação: Abrir seu IDE, carregar um projeto e compilar — tudo acionado por uma instrução em linguagem natural.
Limpeza do Sistema: Abrir o Finder, ir para Downloads e deletar arquivos antigos.

Como o Uso de Computador do Claude Funciona nos Bastidores

No cerne deste recurso está o arquivo computer.py, uma implementação de ferramenta que expõe uma interface semelhante a uma API para um agente de IA.

Vamos dissecar os principais componentes de computer.py.

1. Configuração e Instalação da Ferramenta

class ComputerTool(BaseAnthropicTool):
    name: Literal["computer"] = "computer"
    api_type: Literal["computer_20241022"] = "computer_20241022"

Esta classe define o nome e o tipo da API da ferramenta. Ela herda de BaseAnthropicTool, que padroniza como as ferramentas se comunicam com o Claude.

O construtor carrega a largura da tela, a altura e o número de exibição a partir de variáveis de ambiente. Isso garante que o mapeamento das coordenadas do mouse funcione corretamente em telas de alta resolução.

self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)

2. Executando Ações

A ferramenta lida com várias ações, como mouse_move, type, key e screenshot. Cada ação aciona um comando de shell diferente:

if action == "mouse_move":
    return await self.shell(f"cliclick m:{x},{y}")

A digitação é tratada dividindo o texto de entrada em partes e simulando os pressionamentos de tecla:

for chunk in chunks(text, TYPING_GROUP_SIZE):
    cmd = f"cliclick t:'{chunk}'"
    results.append(await self.shell(cmd, take_screenshot=False))

Isso imita um usuário digitando caractere por caractere, incluindo uma captura de tela após.

3. Funcionalidade de Captura de Tela

A função screenshot() tira uma captura de tela usando screencapture, redimensiona usando o convert do ImageMagick e a retorna codificada em base64:

screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")

Isso permite que Claude "veja" o que está acontecendo na tela antes ou depois de realizar ações.

4. Escalonamento de Coordenadas

Nem todas as telas têm a mesma resolução. O método scale_coordinates() ajusta as coordenadas para que as interações permaneçam consistentes entre os displays:

x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height

Isso garante que quando a IA diz "clique em (400, 300)", ela cai no lugar certo, independentemente do tamanho real da tela.

5. Tratamento de Erros e Validação

Ao longo do código, erros como texto faltando ou coordenadas inválidas são capturados precocemente com mensagens úteis:

if text is None:
    raise ToolError(f"text é requerido para {action}")

Isso protege a ferramenta e garante um comportamento previsível quando Claude interage com um sistema.

Considerações Finais

A API de Uso de Computador do Claude oferece uma abordagem futurista para automação — menos codificação, mais inteligência. Ao interpretar visuais da tela e responder como um assistente humano, Claude traz uma automação poderosa para qualquer usuário do macOS sem exigir habilidades técnicas profundas.

Com apenas Python, algumas ferramentas e sua chave de API, você pode construir fluxos de trabalho que se adaptam aos seus hábitos e preferências — dando-lhe mais tempo para se concentrar no que realmente importa.