Imagine controlar seu Mac com apenas algumas linhas de linguagem natural. Esse sonho agora é uma realidade, graças à nova ferramenta de Uso de Computador do Claude. Se você está automatizando fluxos de trabalho tediosos da interface do usuário, simulando entrada de usuário ou criando demonstrações que interagem com interfaces do macOS, a ferramenta de Uso de Computador do Claude oferece uma solução poderosa e surpreendentemente intuitiva.
Neste artigo, vamos explicar o que é esse recurso, como usá-lo e descrever o funcionamento interno do núcleo da ferramenta. Seja você um desenvolvedor buscando automatizar tarefas repetitivas ou apenas alguém que deseja controlar aplicativos sem as mãos, este guia é um passo a passo completo para começar.

O que é o Uso de Computador do Claude?
O Uso de Computador é uma ferramenta beta específica do Claude lançada pela Anthropic que permite que um agente de IA interaja diretamente com o teclado, mouse e tela de um Mac. Essa interação é realizada programaticamente usando utilitários de linha de comando do macOS.
O Claude, usando esta ferramenta, pode:
- Simular digitação ou pressionamento de teclas específicas
- Movimentar o cursor do mouse para um local
- Realizar cliques esquerdo, direito ou duplos
- Fazer capturas de tela da tela atual
- Obter a posição do cursor
Todas essas ações são expostas através de uma interface semelhante a uma API e envoltas em uma ferramenta baseada em Python que os agentes da Anthropic podem chamar.
Por que automatizar o macOS com Claude?
Ferramentas tradicionais de automação do macOS, como AppleScript ou Automator, podem ser poderosas, mas tendem a ser frágeis, específicas para aplicações ou limitadas em escopo. Com a API de Uso de Computador do Claude, você não está mais restrito por essas regras. Você pode interagir com o sistema como um todo — navegando em aplicativos, clicando, digitando, arrastando e até interpretando a tela visualmente — assim como um humano faria.
Claude age como um copiloto inteligente, interpretando o que está na sua tela e executando tarefas em tempo real usando instruções em linguagem natural e comandos de sistema de baixo nível.
O que você vai precisar
Para começar, certifique-se de ter o seguinte:
- Um Mac rodando macOS 12 (Monterey) ou posterior
- Python 3.8+ instalado
- Homebrew (o gerenciador de pacotes do macOS)
- Um aplicativo de terminal como Terminal.app ou iTerm2
Acesso à API de Uso de Computador do Claude e sua chave de API
Você também usará um utilitário de linha de comando chamado cliclick
para interação de baixo nível, como digitação de teclado e controle do mouse.
Configurando o seu Ambiente no macOS
Antes que Claude possa controlar seu Mac, você precisa conceder permissões de acessibilidade ao terminal:
- Abra Configurações do Sistema
- Vá para Privacidade & Segurança → Acessibilidade
- Ative o controle para o aplicativo de terminal que você está usando
Sem essas permissões, a automação não funcionará.
Como Funciona: Claude + cliclick + Python
O sistema é construído em três camadas principais:
- API de Uso de Computador do Claude – Lida com a interpretação da tela, decide quais ações tomar.
- cliclick – Um utilitário de linha de comando que simula movimento do mouse, cliques e entrada de teclado.
- Ponte Python (
computer.py
) – Conecta os comandos do Claude ao cliclick e ao seu sistema macOS.
A API do Claude interpreta informações visuais (como quais aplicativos estão abertos ou onde os botões estão localizados) e emite comandos de alto nível. Esses comandos são então executados no seu Mac através do cliclick, orquestrados pela camada Python.
Instalando as Ferramentas
Siga estas etapas para instalar e executar a configuração de automação:
1. Instale cliclick
brew install cliclick
2. Clone o Repositório Quickstart
git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo
3. Substitua o Script Principal
Substitua o arquivo computer.py
existente pela versão modificada fornecida no guia Automatizando macOS usando o Uso de Computador do Claude.
4. Execute o Script de Configuração
./setup.sh
Este script cria um ambiente virtual Python e instala as dependências.
5. Ative o Ambiente
source .venv/bin/activate
6. Defina suas Variáveis de Ambiente
Substitua os espaços reservados pelos seus dados reais.
export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512 # A largura da sua tela
export HEIGHT=982 # A altura da sua tela
Você pode encontrar sua resolução em Menu Apple > Sobre Este Mac > Monitores.
7. Inicie o App Streamlit
python -m streamlit run computer_use_demo/streamlit.py
Um navegador local será aberto onde você pode começar a emitir comandos para o Claude.
Automatizando Tarefas do Mundo Real no macOS
Agora que tudo está funcionando, vamos ver o que você pode fazer.
1. Abrindo Aplicativos
Peça ao Claude para “Abrir o Safari” ou “Iniciar o Spotify.” Claude identificará visualmente os ícones ou entradas de menu e simulará os cliques e teclas necessários.

2. Digitação de Texto em Aplicativos
Você pode pedir ao Claude para abrir o Notas e digitar uma mensagem. Isso é útil para criar registros automatizados ou diários.
3. Navegando Menus e Janelas
Claude pode simular atalhos de teclado, clicar em menus ou arrastar janelas para posições específicas. Isso é ótimo para criar fluxos de trabalho em várias etapas, como exportar arquivos ou configurar seu ambiente de trabalho.
Fascinado pelo Uso de Computador? Vamos nos aprofundar:
O script computer.py
atua como um middleware que lida com:
- Traduzindo coordenadas de tela com base na resolução
- Executando ações de mouse e teclado com tempo preciso
- Capturando e codificando capturas de tela para confirmação visual
- Cada comando emitido pelo Claude (por exemplo,
left_click
,mouse_move
,type
) é validado, analisado e depois repassado para o cliclick.
Exemplo: Dizendo ao Claude para Abrir o Safari. Uma vez configurado, você pode instigar o Claude com algo como:
"Por favor, abra o Safari, vá para apple.com e tire uma captura de tela."
Nos bastidores, o Claude irá:
- Usar
cliclick
para pressionarCmd+Space
- Digitar "Safari"
- Pressionar
Enter
- Aguardar o navegador carregar
- Digitar "apple.com"
- Pressionar
Enter
- Usar
screenshot()
para capturar a tela
Todas essas etapas são abstraídas na linguagem natural.
Ele também suporta ciclos de feedback, como retornar a posição atual do mouse ou uma captura de tela da tela, para que Claude possa "ver" o que aconteceu e responder de forma inteligente. Pense sobre o que o Uso de Computador do Claude pode fazer por você:
- Criação de Conteúdo: Automatizar a abertura do Photoshop, carregar um template e exportar um design.
- Reuniões: Abrir o Zoom, participar de reuniões e silenciar/desvincular usando comandos simples.
- Codificação: Abrir seu IDE, carregar um projeto e compilar — tudo acionado por uma instrução em linguagem natural.
- Limpeza do Sistema: Abrir o Finder, ir para Downloads e deletar arquivos antigos.
Como o Uso de Computador do Claude Funciona nos Bastidores
No cerne deste recurso está o arquivo computer.py
, uma implementação de ferramenta que expõe uma interface semelhante a uma API para um agente de IA.
Vamos dissecar os principais componentes de computer.py
.
1. Configuração e Instalação da Ferramenta
class ComputerTool(BaseAnthropicTool):
name: Literal["computer"] = "computer"
api_type: Literal["computer_20241022"] = "computer_20241022"
Esta classe define o nome e o tipo da API da ferramenta. Ela herda de BaseAnthropicTool
, que padroniza como as ferramentas se comunicam com o Claude.
O construtor carrega a largura da tela, a altura e o número de exibição a partir de variáveis de ambiente. Isso garante que o mapeamento das coordenadas do mouse funcione corretamente em telas de alta resolução.
self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)
2. Executando Ações
A ferramenta lida com várias ações, como mouse_move
, type
, key
e screenshot
. Cada ação aciona um comando de shell diferente:
if action == "mouse_move":
return await self.shell(f"cliclick m:{x},{y}")
A digitação é tratada dividindo o texto de entrada em partes e simulando os pressionamentos de tecla:
for chunk in chunks(text, TYPING_GROUP_SIZE):
cmd = f"cliclick t:'{chunk}'"
results.append(await self.shell(cmd, take_screenshot=False))
Isso imita um usuário digitando caractere por caractere, incluindo uma captura de tela após.
3. Funcionalidade de Captura de Tela
A função screenshot()
tira uma captura de tela usando screencapture
, redimensiona usando o convert
do ImageMagick e a retorna codificada em base64:
screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")
Isso permite que Claude "veja" o que está acontecendo na tela antes ou depois de realizar ações.
4. Escalonamento de Coordenadas
Nem todas as telas têm a mesma resolução. O método scale_coordinates()
ajusta as coordenadas para que as interações permaneçam consistentes entre os displays:
x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height
Isso garante que quando a IA diz "clique em (400, 300)", ela cai no lugar certo, independentemente do tamanho real da tela.
5. Tratamento de Erros e Validação
Ao longo do código, erros como texto faltando ou coordenadas inválidas são capturados precocemente com mensagens úteis:
if text is None:
raise ToolError(f"text é requerido para {action}")
Isso protege a ferramenta e garante um comportamento previsível quando Claude interage com um sistema.
Considerações Finais
A API de Uso de Computador do Claude oferece uma abordagem futurista para automação — menos codificação, mais inteligência. Ao interpretar visuais da tela e responder como um assistente humano, Claude traz uma automação poderosa para qualquer usuário do macOS sem exigir habilidades técnicas profundas.
Com apenas Python, algumas ferramentas e sua chave de API, você pode construir fluxos de trabalho que se adaptam aos seus hábitos e preferências — dando-lhe mais tempo para se concentrar no que realmente importa.